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Prologo 



Se dice que un cartel con la frase “No todo lo que cuenta puede contarse, ni 
todo lo que puede contarse cuenta” estaba colgado en la pared del despacho 
de Albert Einstein. Dentro del contexto de la reciente pol^mica sobre las 
reformas educativas, esta afirmacidn casi prof^tica repercute sobre la 
evaluacidn del aprendizaje de los alumnos. 

La evaluacidn se ha convertido en el enfoque central de la agenda actual 
de las reformas educativas de nuestro pais. Aunque nuestro dialogo sobre una 
evaluacion aut^ntica se ha llevado mAs alia de lo que es la medicidn de 
demostraciones de rendimientos humanos complejos puramente 
cuantificables o “contables”, nos ha faltado un marco exhaustivo, sistemdtico 
e integrado para ayudar a los profesionales en el diseno y desarrollo de 
metodos de evaluacidn alternativa. 

En Gui'a practica para una evaluacidn alternativa, Joan Herman, Pamela 
Aschbacher y Lynn Winters nos ofrecen consejos convincentes para crear y 
utilizar metodos alternativos que miden los logros del alumno. Nos presentan 
un modelo sistem^tico, integrado e iterativo que vincula la evaluacidn con el 
curriculo y la docencia, y que estd fundamentado en las ultimas teorfas de 
aprendizaje y cognicidn. 

Las autoras analizan los fines de la evaluacidn y esgrimen un argumento 
sustancial respaldatorio de las estrategias alternativas que se proponen. Sin 
embargo, como ellas mismas apuntan, el tema fundamental del libro es 
destacar varios temas clave relacionados con la evaluacidn que reafirman 
nuestra idea de que hay que incorporar los elementos mds importantes de la 
prdctica docente a las tareas de evaluacidn. Entre estos temas se incluyen: 

La evaluacidn debe ser congruente con los objetivos docentes mas 
importantes. 

La evaluacidn debe incluir un andlisis tanto de los procesos como de 
los productos del aprendizaje. 
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3. Las actividades con base en el rendimiento no constituyen una 
evaluacidn en si. 

4. La teorfa del aprendizaje cognitivo y su enfoque constructivista de la 
adquisicidn de conocimientos respaldan la necesidad de integrar las 
metodologias de la evaluacidn con los fines pedagdgicos y el 
contenido curricular. 

5. Una vision integrada y activa del aprendizaje del alumno requiere de 
una evaluacidn del rendimiento integral y complejo. 

6. El diseno de una evaluacidn est4 mtimamente relacionado con la 
finalidad y objetivos de la evaluacidn; la calificacidn y el seguimiento 
del progreso de un alumno se deben considerar materia aparte del 
diagndstico y el mejoramiento. 

7. La clave de una evaluacidn eficaz es la adecuacidn de la tarea al 
resultado que se desea del alumno. 

8. Los criterios que se emplean para evaluar el rendimiento del alumno 
son cruciales; en ausencia de criterios, la evajuacidn serfa s61o una 
actividad aislada y episddica. 

9. Una buena evaluacidn brinda un gran mimero de datos que permite 
tomar decisiones con conocimiento de causa sobre el aprendizaje del 
alumno. 

10. Los sistemas de evaluacidn que proporcionan la retroalimentacidn 
mas exhaustiva sobre el progreso del alumno incluyen numerosas 
medidas que se ban tornado con el tiempo. 

La palabra “assess” (evaluacidn) proviene de la palabra francesa “assidere” 
que significa “sentarse al lado de”. Las autoras, al clarificeir cu41es son los 
aspectos conceptuales y t^cnicos cruciales en la utilizacidn de evaluaciones 
alternativas, ban reafirmado el papel fundamental que juega la evaluacidn, que 
es la provisidn de retroalimentacidn aut6ntica y significative peira mejorar el 
aprendizaje del alumno, la calidad docente y las opciones educativas. 

Como afirman las autoras, la evaluacidn no es simplemente un fin en sf 
misma. Es un proceso que facilita tomar decisiones pedagdgicas acertadas al 
proporcionar informacidn sobre dos preguntas fun damen tales: ique tal vamos? 
y ic6mo podemos mejorar todo el proceso? 

Quizes la mejor forma de responder a estas preguntas serfa sentdndonos al 
lado del alumno y tratar de averiguarlo. jQu4 alternativa m4s interesante! 



Stephanie Pace Marshall 
Presidenta de la ASCD, 1992-93 
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Reconsiderar la evaluacion 



La evaluaci6n es la piedra angular de la reforma educativa de la d6cada de los anos 
noventa: la agenda educativa del Presidente, America 2000; los Objetivos 
Nacionales de Educacidn establecidos por los gobemadores; el interns por ser 
competitivo a nivel intemacional; las nuevas demandas para la reestructuracidn y 
la llamada accountability-Tesponsahilidad adjudicada o rendir cuentas--a nivel 
estatal, local y escolar. Estas en6rgicas y visibles iniciativas invitan a los educadores 
y a la nacidn a centrarse en objetivos de alto nivel para nuestros hi] os. Nos alientan 
a ir en pos de la perfeccidn.y a dirigir nuestros esfiierzos hacia su consecucidn por 
el bien de los aliunnos, escuelas, distritos, estados y de la nacidn. A1 pedir que 
evaluemos el progreso, con frecuencia se presents la evaluacidn como una Have 
para conseguir tal progreso y asf se asegura el cardcter prioritario de la evaluacidn 
en las escuelas. 

Sin embargo, este mayor dnfesis en la evaluacidn surge en una dpoca de 
creciente descontento con los mdtodos tradicionales de exdmenes tipo test 
(exdmenes donde se presentan respuestas preseleccionadas). Como resultado se ha 
desatado un gran interds por los mdtodos altemativos de evaluacidn y se estdin 
llevando a cabo proyectos en todo el pcds para tratar de formularies tanto a nivel 
nacional, estatal y local como en las aulas mismas. Los temas sobre carpetas de 
trabajos, exposiciones, experimentos prdcticos y la expresidn escrita en todo el 
currfculo se han expuesto un sinniimero de veces. A pesar de los multiples 
congresos y reuniones en los que se han tratado estos temas, los educadores siguen 
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sin tener esa ayuda concreta que les permita formular y utilizar m^todos 
altemativos de evaluacidn. 

El propdsito de este libro es contribuir al proceso de forjar mdtodos altemativos 
de evaluacidn. Estd dirigido a maestros en formacidn y a los que ya ejercen la 
profesidn, al personal directivo de escuelas y a profesionales a nivel de distrito y 
estatal que estdn interesados en nuevas formas de evaluacidn. Basado en teorias 
recientes sobre aprendizaje significativo y del currfculo, asi como en criterios de 
calidad de evaluacidn que ya ban sido establecidos y aqudllos todavfa en 
desarrollo, en este libro se propone un mdtodo sistemdtico para la elaboracidn de la 
evaluacidn y se plantean puntos criticos para asegurar evaluaciones de alta calidad. 
En este primer capitulo, analizamos tanto los fines de la evaluacidn como la 
necesidad de buscar nuevas altemativas; asimismo resumimos los temas clave en 
el desarrollo de la evaluacidn, lo que constituye el eje central de este libro. 

Tambien es importante senalar lo que este libro no pretende ser. No intenta ser 
un manual sobre cdmo planificar y poner en prdctica un sistema de evaluacidn 
exhaustive o cdmo elaborar un programa de evaluacidn para toda una clase. For el 
contrario, su propdsito es destacar los asuntos clave en el desarrollo de una unica 
evaluacidn eficaz, componente importante en la realizacidn de evaluaciones de 
calidad. 



Definicion de terminos 

Cuando se habla de las diversas altemativas para los exdmenes tradicionales tipo 
test, se ventilan muchos terminos. Entre dstos, tenemos evaluacidn alternativa, 
evaluacidn autentica y evaluacidn basada en el rendimiento. Utilizamos estos 
tdrminos como sindnimos de las variantes de la evaluacidn del rendimiento que 
exigen que el alumno genere una respuesta en lugar de escoger entre las respuestas 
que se ofirecen. La evaluacidn del rendimiento, ndmbrese como se nombre, exige 
que los alumnos realicen de manera activa tareas complejas y significativas, a la vez 
que valora los conocimientos previos, el aprendizaje reciente y las destrezas 
necesarias para resolver problemas reales o autdnticos. Algunos de los mdtodos 
altemativos de evaluacidn que nos vienen a la mente al emplear el tdrmino 
“evaluacidn alternativa” son exposiciones, investigaciones, demostraciones, 
respuestas orales y escritas, diarios y carpetas de trabajos. 



Entender lo que la evaluacidn promete 

^Por qud se presta tanta atencidn a los exdmenes o a otras formas de evaluacidn? 
^Por qud los necesitamos tanto? La evaluacidn cubre necesidades a todos los niveles 
de la jerarqma educativa. Por ejemplo, la evaluacidn ayuda a los educadores a 
establecer criterios, a crear objetivos para la docencia, a mejorar el rendimiento, a 
proporcionar retroalimentacidn diagndstica, a calificar/evaluar el progreso y 
comunicarlo a otros. 
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Ya seamos maestros que utilizan examenes tradicionales o coordinadores que 
preparan exdmenes de rendimiento, los examenes son el vehiculo mediante el cual 
establecemos y comunicamos criterios a los que nos rodean; indicamos aquello que 
es importante, en lo que hay que centrarse y lo que representa un buen 
rendimiento. Durante este proceso los resultados de los examenes estdn vinculados 
a intereses importantes — calificaciones finales, criterios de ingreso para la 
universidad, seguridad profesional, autosatisfaccidn y otras vehtajas — ^y como 
consecuencia motivan el rendimiento. No solo comunicamos a los alumnos lo que 
es importante cuando incluimos un tema en un examen, sino que tambien les 
motivamos a aprenderlo. Los coordinadores nacionales de examenes recomiendan 
lo que se debe enfatizar en las escuelas y motivan, tanto a maestros como a 
alumnos, a que obtengan provecho de sus exdmenes. 

De igual manera, la retroalimentacion y el seguimiento del progreso que forman 
parte de la evaluacidn funcionan a varies niveles. Para el personal directive y los 
planificadores de las escuelas, los resultados de los examenes proporcionan 
informacidn sobre la eficacia de un programa e identifican los puntos fuertes y 
debiles de los curriculos. Esto demuestra ser util para la distribucion de recur sos, 
la identificacidn de necesidades de capacitacidn del personal docente o de diseno 
de materiales nuevos, y para la seleccidn y evaluacidn de planes de mejora. Para los 
maestros, los examenes proporcionan importante informacidn diagndstica que 
permite former grupos por niveles, identificar las necesidades para la docencia y 
recomendar una ensenanza adecuada, determinar lo que se considera el dominio y 
evaluar la eficacia de unidades did^cticas o metodos did^cticos parti culares. Para 
los padres y alumnos, la informacion procedente de exdmenes es un indicador del 
progreso individual, que les permite entender y aprovechar los puntos fuertes y 
d^biles del individuo. 

Para todos, los examenes prometen responder a las preguntas: “<iQue tal voy 
[vamos]? iComo podna [podrfamos] mejorar?’' 

Los examenes s61o pueden cumplir esta promesa si reiinen ciertas condiciones 
indispensables. Entre estas la mds importante es el significado del rendimiento en 
un examen: los examenes son utiles y product! vos en tanto que representan metas 
importantes para los alumnos y objetivos valiosos para la ensenanza. En otras 
palabras, para que el content do de un examen sea vdlido, justo y util, 6ste debe 
ajustarse a los conocimientos, destrezas y disposiciones que ensenan los maestros 
y aquellos que se espera que los alumnos aprendan o adquieran. 

La ilustracidn 1.1 muestra un simple modelo que destaca la manera de utilizar 
sistematicamente los resultados de la evaluacidn para respaldar y facilitar la mejora 
de la calidad docente. Como muestra la ilustracidn, las escuelas y los maestros 
generalmente sintetizan los datos procedentes de varias fuentes con el fin de llegar 
a los objetivos para los alumnos a nivel de escuela o de aula. Entre estas fuentes se 
encuentran las expectativas de la sociedad, las directrices curriculares estatales y 
de distrito, los requisitos legales, los textos y otros materiales did^cticos 
disponibles, y los criterios y juicios profesionales. Una vez definidos, estos 
objetivos o metas sirven como senales indicadoras para la programacidn de la 
ensenanza y de la evaluacidn. Puesto que reflejan los mismos objetivos que 
gobieman las actividades didacticas, los resultados de una evaluacidn guian la 
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llustracion 1.1 
Un modelo integrado 
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planificaci6n de la ensenanza y sirven como medida de la calidad docente. Los 
resultados de la evaluacidn pueden utilizarse para identificar aquellas dreas donde 
determinados individuos necesitan a 5 mda, o donde se necesita una ensenanza 
suplementaria, o donde se pueden mejorar las unidades diddcticas, o donde hay 
que dirigir m4s esfuerzos a los recursos de desarrollo del personal, etcetera. Cuando 
la ensenanza y la evaluacidn se unen a una serie de objetivos de aprendizaje 
significativos, las evaluaciones tienen sentido y pueden usarse para mejorar la 
ensenanza. 

No es que los exdmenes deban regir el curriculo, o que los maestros deban 
ensenar pensando exclusivamente en el examen. bien, una buena evaluacidn'^ 
es un componente integral de una buena ensenanza. Tan to los exdmenes como la 
ensenanza deben reflejar metas significativas y prees tabled das que los alumnos 
han de alcanzar. Las evaluaciones deben medir los objetivos importantes del aula; 
los resultados de la evaluacidn deben concordar con el rendimiento de los alumnos 
en aquellas dreas de conocimientos generales y destrezas reflejadas en esos 
objetivos; y la ensenanza debe brindar a los alumnos la posibilidad de aprender y 
adquirir los conocimientos y destrezas. 



Entender los limites de la evaluacion tradicional 

De las recientes crfticas han suigido preguntas sobre la relacidn que existe entre el 
modelo que se muestra en la ilustracidn 1.1 y los ejercicios de evaluacidn 
existentes. ^Son las ndtas de los exdmenes un fiel reflejo de un proceso significative 
de aprendizaje? ^Representa una mejoria en las notas un mejor aprendizaje 
(Cannell 1987, Linn et al. 1990, Shepard 1989}? ^C6mo es posible que casi todos los 
estados afirmen tener notas “superiores a la media” cuando las comparan con el 
modelo representative nacional? La idea de “media” comparada con el modelo 
representative nacional sugiere que algunos obtienen notas inferiores, otros 
superiores y otros al nivel de la media. ^Se deben las mejoras de las notas de 
exdmenes a una mejora de la ensenanza y del aprendizaje, o reflejan un curriculo 
deficiente que implica que los alumnos estdn siendo “adiestrados y aniquilados” 
siguiendo el contenido previsto de los exdmenes? 

La interminable letanfa sigue. Muchos se preguntan si los exdmenes estdndar 
actuales son suficientemente representatives de los importantes objetivos del 
aprendizaje y del desarrollo del alumno. Entre las crfticas se incluyen el cerrado 
contenido de los exdmenes que se concentra principalmente en las destrezas 
bdsicas de comprension de lectura, lengua y matemdticas; la falta de 
correspondencia entre el contenido de los exdmenes y el curriculo y la ensenanza; 
el excesivo 6nfasis en las destrezas discretas y comunes que deja a un lado las de 
razonar y resolver problemas; y la poca relevancia de los exdmenes tipo test en el 



^Aunque a lo laigo del libro venimos utilizando examinar y evaluar como mds o menos 
sindnimos, preferimos el tdnnino evaluar porque nos Ueva a pensar mds alld de las definiciones 
tradicionales de lo que es un examen. 
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aprendizaje del aula o del mundo real (Baker 1989, Shepard 1989, Herman y Golan 
1990). ^Pueden llegar a conseguir resultados significativos los programas 
educativos que se basan en los tradicionales exdmenes est^dar tipo test? La 
opinidn de los criticos es que no lo logran. 



Considerar las alternativas 

El descontento que existe respecto a los exdmenes est^dar y la profunda fe que se 
tiene en el valor de la evaluacidn sistem^tica, han dado lugar a propuestas que van 
en pos de nuevas alternativas de evaluacion. Ya llamemos a estas alternativas 
evaluacidn del rendimiento, evaluacidn aut^ntica, evaluacidn de carpetas de 
trabajo, evaluacidn de procesos, exposiciones o demostraciones, lo que se espera de 
ellas es que consigan resultados educativos significativos y duraderos. Aunque las 
estrategias de evaluacidn que se proponen parezcan distintas, todas comparten una 
vision comun (vease la ilustracion 1.2). 



nustracion 1.2 

Caracteristicas comunes de las evaluaciones alternativas 



• Piden a los alumnos que ejecuten, creen, produzcan o hagan algo. 

• Explotan las destrezas mas complejas de razonar y de resolver problemas. 

• Utiiizan tareas que reflejan actividades didacticas significativas. 

• Recurren a aplicaciones del mundo real. 

• Las personas y no las maquinas son las que evaluan, utilizando asf el juicio 
humano. 

• Exigen que los maestros desempenen un nuevo rol pedagogico y de evaluacion. 



Ademds, estos nuevos m^todos de evaluacidn subrayan la importancia de 
examinar tanto los procesos como los productos del aprendizaje. Nos alientan a ir 
m^s alia de la idea de que s61o hay “una respuesta correcta” e invitan a los alumnos 
a explorar las posibilidades intrmsecas de los problemas complejos y sin limite, y 
a que formen sus propias conclusiones. 

La ilustracion 1.3 muestra los distintos m^todos de evaluacidn alternativa que 
se tratan actualmente. Aunque algunas se presentan como nuevas alternativas, en 
realidad son tecnicas de evaluacidn y aspectos que los maestros vienen tratando 
desde hace anos. Los buenos maestros est^ siempre pendientes del proceso 
pedagdgico — como va una clase, qui6n tiene problemas, qui6n presta atencidn, 
c6mo estd trabajando im determinado grupo— y ajustan sus planes did^cticos y 
actividades de acuerdo con 6ste. De igual man era, la mayoria de los maestros utilize 

Er|c 1 3 
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una serie de faentes de informacidn para determinar el progreso de los aliimnos en 
su aprendizaje. Lo nuevo de estas evaluaciones es que vuelven exp licit o y formal 
lo que antes era implicito e informal. Tambien alientan a los maestros a articular sus 
objetivos docentes con claridad, asegurando asi una coordinacidn entre sus 
objetivos y las teorfas actuates de ensenanza efectiva, y recopilar datos sistemdticos 
para mejorar su rendimiento docente. 





Ilustracion 1.3 




Evaluaciones alternativas 






Evaiuar procesos 


Evaiuar productos 


• Entrevistas formales 


• Ensayos concretos con pautas y 




criterios de puntuacion 


• Observaciones documentadas 


• Proyectos con criterios de 




calificacion 


• Cuadernos y diarios del alumno 


• Carpetas de trabajo de los alumnos 


sobre su aprendizaje 


con criterios de calificacion 


• Autoevaluacion del alumno 


• Presentaciones/investigaciones del 


(oral o escrita) 


alumno (expositivas o de expresion 




artfstica) 


• Entrevistas detalladas sobre 


• Dibujos, teatro, bailes y cuentos con 


proyectos de los alumnos, productos 


criterios de calificacion 


y presentaciones (el alumno explica 




el que, el por que y el como, y 




reflexiona sobre los posibles cambios 




• Listas de control de conducta 


• Inventarios de actitud,cuestionarios 


• Discusiones entre alumnos junto 


• Examenes estandar o tipo test, quizas 


con examenes estandar o tipo test 


con apartado para las explicaciones 



CUfA PRACTICA para UNA EVALUACI6n ALTERNATIVA 



Respaldar la mejora de la calidad docente 

La evaluaci6n directa de la expresidn escrita del alumno es prueba del poder que 
podrfan llegar a cobrar estos nuevos tipos de evaluacidn: la integracidn de la 
ensenanza y la evaluacidn. En un distrito los maestros colaboraron para definir los 
atributos de una buena redaccidn y para elaborar un baremo de puntuacidn para 
medir dichos atributos. Luego capacitaron a otros maestros en la correcta 
utilizacidn del baremo y se les empleo a dstos en calidad de evaluadores de la 
expresidn escrita en una evaluacidn a nivel distrito. Los maestros encontraron que 
los elementos de este baremo constitman una buena base para la ensenanza y 
ofrecian una forma r^pida y uniforme de evaluar y retroalimentar los ejercicios de 
expresidn escrita realizados por los alumnos en el aula. Ademds, la importancia de 
la expresidn escrita para el distrito, junto con otras iniciativas estatales, alentaron a 
los maestros a modificar algimos aspectos de la diddctica empleada hasta entonces 
para esta destreza. El resultado fue una mejora en la expresidn escrita por parte de 
los alumnos y una mayor confianza de los maestros en sus metodos de ensenanza 
y de evaluacidn. El desarrollo de exAmenes en otras dreas de cpntenido, que 
comparten el deseo de renovar los mdtodos did^cticos, es igualmente prometedor. 



El camino a seguir en el desarrollo de la evaluacidn 

Si bien la evaluacidn altemativa implica nuevas formas de interpreter los fines 
educativos, el procedimiento para desarrollar estas evaluaciones tiene su base en la 
investigacidn de sistemas de valoracidn llevada a cabo durante varias ddcadas. 
Aqudllos que van a disenar extoenes de alta calidad, ya sean extoenes estdndar, 
basados en criterios preestablecidos, o fundamentados en el rendimiento del 
alumno, se acatan al siguiente procedimiento, si bien con algunas variaciones: 

1. Especificar la naturaleza de las destrezas y logros que el alumno tiene que 
alcanzar. 

2. Especificar las tareas ilustrativas que requieren que el alumno demuestre 
estas destrezas y logros. 

3. Especificar los criterios y pautas para valorar el rendimiento del alumno 
en la tarea. 

4. Elaborar un baremo fiable de calificacidn. 

5. Recopilar pniebas de validez para mostrar qud tipos de conclusiones se 
pueden sacar de la evaluacidn. 

6. Utilizar los resultados de exdmenes para refinar la evaluacidn y para 
mejorar el curriculo y la ensenanza; proporcionar la retroalimentacidn a 
los alumnos, los padres y la comunidad. 
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RECONSIDERAR LA EVALUACI6n 



Los siguientes capftulos describen la manera en la cual se aplica el 
procedimiento de preparacidn de exdmenes a la evaluacion altemativa. El 
procedimiento se puede modificar segiin el objetivo de la evaluacidn, cualquiera 
que sea su formato. For ejemplo, en el caso de una evaluacidn de gran escala o de 
una evaluacidn de competencia nunima, donde los resultados son de gran 
importancia y jug^rsela a una sola carta es lo habitual, todos estos pasos son 
imprescindibles. Los pasos cuatro y cinco no serfan tan importantes para la 
eviuacidn habitual de una clase, donde los maestros disfrutan de multiples 
oportunidades para evaluar el progreso de un alumno — sea de manera formal o 
informal. En el aula, los resultados de cualquier evaluacidn se ven moderados por 
otros tipos de datos formales o informales; esto compensa lo que se pierde al no 
recopilar datos formales de validez y fiabilidad. Sin embargo, los maestros 
necesitan conocer a fondo las caracterfsticas de algiin procedimiento de evaluacidn 
t^cnicamente fiable de manera que puedan desempenarse en calidad de 
consumidores hdbiles tanto de los productos de evaluacidn de gran escala como de 
los productos comerciales que influyen en su diddctica en el aula. 



Equilibrar las estrategias de evaluacion 

No existe una linica forma acertada para evaluar a los aliunnos. Si bien presentamos 
un buen argumento para la evaluacidn del rendimiento, no estamos afirmando que 
todas las evaluaciones deban ser de este tipo, ni rechazamos el uso de ex4menes 
tipo test u otros ex4menes de respuestas preseleccionadas. Lo que afirmamos es que 
las evaluaciones del rendimiento ofrecen atractivas formas de evaluar las destrezas 
de razonar y de resolver problemas y, puesto que esMn fundamentadas en 
problemas reales, podrian ser mds motivadoras para los alumnos y reforzarfan mds 
sus conocimientos. Sin embargo, mientras que las evaluaciones del rendimiento 
pueden proporcionar informacidn sobre el dxito de los alumnos en cuanto a la 
aplicacidn de sus conocimientos, los exdmenes tipo test pueden demostrar ser mds 
eficaces para determinar el ^ado de adquisicidn de conceptos e informacidn bdsica 
por parte de los alumnos. Un curriculo equilibrado requiere de un mdtodo 
equilibrado de evaluacidn. 

Ademds, no s61o porque una evaluacidn requiera que el aliunno lleve a cabo 
una actividad interesante o compleja significa que sea una buena evaluacidn. Una 
buena evaluacidn mide objetivamente algo mds que las tareas especfficas que se 
pide de los alumnos. Los resultados de una buena evaluacidn identifican lo que 
pueden hacer los alumnos en un ampUo dominio de conocimientos o destrezas. Las 
destrezas que exhiben los alumnos en el contexto de la evaluacidn deben poderse 
trasladar a otras situaciones y problemas. 



CUIA PRACTICA PARA UNA EVALUAC16n ALTERNATIVA 



Mamtener un nivel alto en las evaluaciones 



Sin tener en cuenta su finalidad o formato, las evaluaciones de calidad deben reunii 
ciertas condiciones comunes. El Centro para la Investigacidn de la Evaluacidn, 
Criterios y Examinacion del Alunmo (The Center for Research on Evaluation, 
Standards and Student Testing; CRESST), (Linn, Baker y Dunbar, 1991) ha 
establecido criterios clave para un procedimiento complete de elaboracidn de una 
evaluacidn. Entre estos criterios se incluyen los siguientes: 

a Consecuencias. Los antecedentes del proceso de examen estan colmados 
de ejemplos de buenas intenciones que han fracasado. Este criterio requiere 
de una planificacidn desde el principio para evaluar las verdaderas 
consecuencias de la evaluacidn. ^Tlene consecuencias positives o hay 
efectos no intencionados como es la limitacidn del curriculo, efectos 
negatives para los alumnos mds atrasados, etcdtera? 

m Objetividad. ^Toma en cuenta la evaluacidn el historial cultural de esos 
alumnos que se examinan? ^Han tenido todos los alumnos las mismas 
oportunidades de aprender las destrezas de razonar y de resolver 
problemas que se estan evaluando? 

s IVansferencia y Generalizacion. ^habrd concordancia entre los resultados 
de la evaluacidn y las generalizaciones que se han establecido acerca de la 
capacidad de los alumnos? ^Son fiables los resultados dados por distintos 
evaluadores y tienen el mismo significado en distintas localidades? 

m Complejidad Cognitiva. No se puede averiguar a simple vista si una 
evaluacidn evaliia realmente o no las destrezas de razonar. iRequiere de 
hecho una evaluacidn que los alumnos utilicen la destreza de razonar y 
solucionar problemas? 

n Calidad de contenido. Los ejercicios seleccionados para tener una idea del 
dominio de un contenido en particular deben concordar con el tiempo y el 
esfuerzo que los alumnos y evaluadores han invertido. ^Es el contenido 
seleccionado consistente con la mejor y mas actual investigacidn de este 
campo y refleja los aspectos importantes de una disciplina que seguira 
siendo valida? 

H Contenido. El criterio de seleccidn del contenido de una disciplina 
requiere que la evaluacidn concuerde con el curriculo y, a lo largo de una 
serie de evaluaciones, que represente al curriculo en su total! dad. Debido a 
las restricciones de tiempo que van a limitar el niimero de evaluaciones 
altemativas que se podrian realizar, un contenido adecuado representa un 
re to importante. ^Se ha incluido los elementos clave del curriculo en esta 
serie de evaluaciones? 

m Valor Significativo. Una de las razones para justificar la utilizacidn de 
evaluaciones de mayor contexto es que aseguran que los alumnos se vean 
obligados a enfrentarse a problemas que tienen sentido y que resultan ser 
experiencias educativas utiles y mds motivadoras. ^Consideran los 
alumnos que los ejercicios de evaluacidn son realistas y utiles? 
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RECONSIDERAR LA EVALUAC|6n 



■ Costo y Eficacia. Para que sean eficaces, las evaluaciones deben ser 
econdmicas. Las evaluaciones de trabajo intensivo basadas en el 
rendimiento requieren de una recopilacion de datos y sistemas de 
puntuacion eficaces. ^Merece esta informacion sobre los alumnos el costo 
y el tiempo que lleva obtenerla? 

Finalmente, es importante apuntar que la evaluacidn altemativa es un campo en 
desarrollo. Nuevas estrategias, asi como nuevas metodologias, estdn evolucionando 
para aseguxar su buena calidad. Mientras mas aprendemos sobre la evaluacidn 
altemativa, se pueden refinar o incluso volver a formular los metodos actuales. 
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Vincular la evaluacion 
y la ensenanza 



Las nuevas perspectivas de un currfculo, de una ensenanza y de un aprendizaje 
eficaces requieren de un nuevo enfoque de la evaluacion sistem^tica. Ya no se 
concibe el aprendizaje como una transmisidn unilateral del maestro hacia los 
alumnos con la ilustracidn del maestro como transmisor y los alumnos como 
recep tores pasivos. For el contrario, la ensenanza significativa implica la 
participacidn activa de los alumnos en el proceso de aprendizaje. Los buenos 
maestros extraen y sintetizan el conocimiento de la disciplina, del aprendizaje del 
alumno, y del desarrollo infantil. Utilizan una amplia gama de estrategias 
pedagdgicas, que abarcan desde la ensenanza directa a la particularizada, con el 
objeto de lograr la participacion de los alumnos en actividades significativas — 
debates, tareas en equipo, proyectos practices — y de lograr objetivos especificos de 
aprendizaje. Los buenos maestros evaliian constantemente el avance de sus 
alumnos, recopilan informacidn sobre sus problemas y su progreso, y de acuerdo a 
ello van modificando su plan did^ctico. 

En este capitulo analizaremos las tendencias educativas y sociales que 
respaldan estas nuevas perspectivas de la ensenanza y del aprendizaje que ban 
suscitado la necesidad de nuevas t^cnicas de evaluacidn (v6ase ilustracidn 2.1). 
Estas mismas tendencias exigen m4s que nunca una gran preparacidn por parte de 
los maestros , ya que deben integrar el conocimiento de los objetivos proyectados, 
los procesos de aprendizaje, los contenidos del curriculo, y la evaluacidn. 
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llustracion 2.1 

Nuevas tendencias de evaluacion 



1. Cambio del enfoque conductista sobre el aprendizaje al enfoque cognitivo sobre 
la evaluacion 

• Del enfasis exclusive en el producto o el resultado del aprendizaje del alumno 
a la preocupacion por el proceso de aprendizaje 

• De la actitud pasiva a la construccion activa del significado 

• De la evaluacion de destrezas por separado y aisladas a la evaluacion 
integrada y multidisciplinaria 

• Enfasis en la metacognicion (autorregulacion y destrezas del aprendizaje a la 
habilidad de aprender) y destrezas conativas (la motivacion y otras areas 
afectivas que influyen en el aprendizaje y el exito escolar) 

• Cambio de lo que se entiende por saber y estar bien preparado — de la 
acumulacion de hechos y destrezas aisladas a la importancia de la aplicacion 
y del uso del conocimiento 

2. De la evaluacion basada en examenes escritos a la evaluacion autentica 

• Pertinente y significativo para los alumnos 

• Problemas contextual izados 

• Enfasis en las destrezas complejas 

• No hay una unica respuesta correcta 

• Criterios publicos conocidos anteriormente 

• Avance individual y desarrollo 

3. Carpetas de trabajos: de la evaluacion en una sola instancia a muestras de trabajo 
a largo plazo 

• Fundamento de la evaluacion por el profesor 

• Fundamento de la autoevaluacion por los alumnos 

• Fundamento de la evaluacion por los padres 

4. De la evaluacion de un solo atributo a una evaluacion multidimensional 

• Reconocimiento de las multiples destrezas y aptitudes de los alumnos 

• Mayor sensibilidad a la maleabilidad de la capacidad del alumno 

• Oportunidades para que el alumno desarrolle y demuestre diversas habilidades 

5. De un enfasis casi exclusive en la evaluacion individual a la evaluacion colectiva 

• Destrezas de trabajar en equipo 

• Productos en colaboracion 
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GUiA prActica para UNA evaluaciCn alternativa 



Enfrentarse a las nuevas exigencias de la educacion 

Consideremos lo que las predicciones futuristas implican para los objetivos 
educativos y para los tipos de destrezas que los alumnos y la sociedad entera van a 
necesitar en el siglo XXI (Benjamin 1989). El conocimiento estd en expansion 
geometrica; la base del conocimiento mondial se ha cuadriplicado en este siglo 
(Cornish 1986). Da da esta velocidad, no se puede esperar de ningiin individuo que 
se mantenga al dia con toda la nueva informacidn que surge en una sola disciplina, 
ni mucho menos en varias. Debido a esta explosidn de conocimiento, casi todos los 
esfuerzos por conseguir que los alumnos memoricen y reproduzcan grandes 
cantidades de informacidn son iniitiles. 

Las tendencias economicas actuales tambien nos alejan de un curriculo basado 
en hechos. El cambio de una economia de manufactura a una econonua basada en 
la informatica y los servicios requiere que los individuos desarrollen destrezas de 
utilizar y acceder a informacion y que adquieran destrezas para trabajar en equipo. 
Estos cambios en el mundo profesional y el ritmo y complejidad de la vida 
modema sugieren que vamos a tener que ser flexibles, cambiar de trabajo 
frecuentemente y adaptamos a los cambios. En la formacidn de los alumnos para 
su exito profesional, las escuelas deben ensenar a manejar informacion en lugar de 
simplemente ensenar a adquirirla. 



utilizar las teorias cognitivas de aprendizaje 

Las nuevas teorias cognitivas del aprendizaje nos llevan por caminos similares. Las 
primeras teorias de aprendizaje supoman que las destrezas complejas se adquirfan 
poco a poco en una secuencia cuidadosamente estructurada de destrezas mds 
sencillas. fistas eran requisites previos y parte de dicha secuencia, y se articulaban 
con frecuencia en objetivos de conducta aislados. Se suponia que se debia ensenar 
las destrezas bdsicas necesarias para el aprendizaje mecanico antes de continuar 
con destrezas superiores que requerian de un aprendizaje por descubrimiento. Sin 
embargo, datos procedentes de la psicologia cognitiva indican que el aprendizaje 
no es lineal y que tampoco se consigue uniendo fragmentos de un aprendizaje mas 
sencillo. El aprendizaje es un proceso continue durante el cual los alumnos est^ 
constantemente recibiendo informacion, interpretandola, incorporandola a sus 
conocimientos y experiencias (sus conocimientos previos) y reorganizando y 
revisando el concepto que se han formado del mundo, llamadas “modelos 
mentales”, “estructuras de conocimientos” o “esquema”. 



La naturaleza activa del aprendizaje 

Visto desde la perspectiva contemporanea cognitiva, el aprendizaje significative es 
reflexive, constructive y de autorregulacidn (Wittrock 1991, Bransford y Vye 1989, 
Marzano et al. 1988, Davis et al. 1990). No simplemente grabamos informacidn de 
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los hechos, sino que creamos nuestra propia interpretacion del mundo — nuestras 
prop! as estructuras de conocimientos. Saber algo no es s61o recibir informacion de 
forma pasiva, sino interpretarla e incorporarla a nuestros conocimientos previos. 
Ademds, hoy reconocemos la importancia de saber no solo c6mo actuar sino 
tambi^n cu4ndo actuar y como adaptar esa actuacidn a situaciones nuevas. La 
presencia o ausencia de fragmentos aislados de informacion, que suele ser el eje 
central de muchos de los examenes tipo test, no es de suma importancia en la 
evaluacion de un aprendizaje significative. En su lugar, lo que nos interesa es saber 
si los alumnos organizan, estructuran y utilizan esa informacidn en un contexto en 
el que tienen que resolver problemas complejos y averiguar como lo hacen. 



El aprendizaje no es lineal 

El aprendizaje no consiste en jerarquias aisladas. Puesto que el aprendizaje no es 
lineal y puede tomar varias direcciones simult^neamente a un ritmo irregular, el 
aprendizaje de conceptos no es algo que pueda retrasarse a una edad en particular 
o hasta que se haya dominado todos los “hechos bdsicos”. Personas de todas las 
edades y con diferentes capacidades utilizan y refinan conceptos constantemente. 

Hoy en dia tenemos pruebas que dejan claro que la ensenanza que se concentre 
en practices repetitivas estructuradas [driUs] y en la practice de hechos y destrezas 
aisladas perjudica a los alumnos. Insistir que los alumnos demuestren cierto nivel 
en el dominio de las matemdticas antes de dejarles estudiar 41gebra o que aprendan 
a redactar un pdrrafo debidamente antes de intentar redactar un ensayo son 
ejemplos de este m^todo basado en destrezas aisladas. Este tipo de aprendizaje 
fuera de contexto hace que sea mds dificil organizer y recorder la informacion que 
se presen ta. De igual manera resulta dificil aplicar las destrezas que se han 
ensenado en el aula a la resolucidn de problemas en el mundo real. Los alumnos 
que tienen problemas con el dominio de estos “conceptos bdsicos’' fuera de 
contexto, se ven frecuentemente relegados a clases o grupos de recuperacidn sin 
que se les brinde la oportunidad de abordar tareas complejas y significativas. 



Los alumnos tienen multiples aptitudes 

Las teorias actuales sobre la inteligencia destacan la existencia de una amplia gama 
de talentos y capacidades humanas, y no estdn de acuerdo con la opinion popular 
de que la inteligencia o habilidad consiste en una capacidad linica y fija (Sternberg 
1991, Gardner 1982). Gardner senala que mientras la educacidn tradicional ha dado 
importancia a tan solo dos habilidades, la verbal-lingiiistica y la logica-matematica, 
existen tambi^n muchas m4s “inteligencias” importantes, como son la visual- 
espacial, la quinest^sica, la musical, la intrapersonal y la interpersonal. Gardner 
afirma que todos los individuos tenemos fuerzas en dos o tres de estas areas. 
Ademds, los modos y . velocidades que empleamos cuando adquirimos 
conocimientos son muy diversos, al igual que las capacidades de atencidn y 
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memoria que po demos utilizer en la adquisicidn de conocimientos y en la 
actuacidn, y las diferentes formas de demostrar los distintos significados que hemos 
creado. Para lograr el 6xito con todos los alumnos, la ensenanza y la evaluacion 
necesitan aprovechar algo mas que las inteligencias lingiiisticas o la Idgica- 
matemdtica y admitir la premise de que todos los alumnos son capaces de aprender. 



El aprendizaje induye la cognidon^ la metacognidon y el afecto 

Los estudios recientes sobre la integracidn del aprendizaje y de la motivacidn 
destacan la importancia de las destrezas afectivas y metacognitivas (pensar sobre 
pensar) en el aprendizaje (McCombs 1991, Weinstein y Meyer 1991). For ejemplo, 
Belmont et al. (1982) sugieren que la diferencia entre los que razonan y resuelven 
problemas con dificultad y los que lo hacen bien no se encuentra simplemente en 
las destrezas que poseen, sino en su no utilizacidn. La simple adquisicion de 
conocimientos y destrezas no vuelve mds capaces a los individuos en lo referente 
a pensar y resolver problemas. Tambien deben adquirir la costumbre de emplear las 
destrezas y estrategias y saber cuando aplicarlas. 

La investigacidn y la experiencia, como las que se ban llevado a cabo en el 
campo de la expresidn escrita (Gere y Stevens 1985, Biimham 1986), demuestran 
la importancia de hacer reflexionar a los alumnos sobre lo que constituye un trabajo 
excelente y sobre c6mo evaluar sus propios esfiierzos. Si facilitamos a los alumnos 
modelos de actuacion ejemplar y les animamos a reflexionar sobre sus trabajos, les 
ayudamos a entender e inter! orizar nuestros criterios. 

El aprendizaje significative se considera una motivacion intrmseca. El valor a 
largo plazo de los tradicionales motivadores extrmsecos, como son las notas o los 
premios, es discutible. La investigacidn indica que estas tdcnicas pueden incluso 
desvalorizar la motivacidn intrinseca del alumno, lo que influye negativamente en 
el dominio o rendimiento escolar (Lepper y Greene 1978). 



El contexto social del aprendizaje 

En los liltimos anos tambien se ha prestado atencidn al papel que juega el contexto 
social al dar forma a las habilidades y disposiciones cognitivas complejas. Aunque 
los problemas de la vida real muchas veces nos obligan a trabajar en equipo, la 
mayor parte de la ensenanza y evaluacidn tradicional se ha basado en el trabajo 
individual. Hoy en dfa sabemos que el trabajo en equipo facilita el aprendizaje. 
Trabajar junto con companeros en una tarea en comun proporciona: (1) muchos 
modelos de estrategias de razonamiento eficaces; (2) la retroalimentacion mutua 
constructiva; (3) el reconocimiento de la importancia de colaborar con otros; y (4) 
ayuda para alcanzar destrezas o conocimientos dificiles o complejos. 

Las exigencias de una democracia proporcionan otras razones fundamentales 
que respaldan la importancia de la investigacion en equipo. Se espera que los 
alumnos que trabajan juntos en una “comunidad de estudiantes” se escuchen unos 
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a otros con respeto, reflexionen y crezcan con las ideas de los demas, exijan pruebas 
para apoyar las opiniones de los otros, se ayuden a la bora de sacar conclusiones y 
cuestionen los hechos, suposiciones y argumentos de diferentes puntos de vista 
(Jones y Fennimore 1990). 



Centrarse en un curriculo razonado 

Un m^todo moderno sobre como hacer un curriculo, llamado “Curriculo 
Razonado” [Thinking Cunicuium] disenado por Lauren Resnick y Leopold Klopfer 
(1989), recomienda firmemente una vision integrada y activa del aprendizaje del 
alumno. El curriculo razonado destaca la importancia tanto del proceso como del 
producto. Muchas veces los alumnos realizan tareas parecidas a aqu411as que 
encuentran en el mundo real. Los alumnos llevan a cabo tareas que requieren de 
razonamiento complejo, planificacidn y evaluacidn. Resuelven problemas, toman 
decisiones, construyen argumentos, etcetera. De este modo, imitan el proceso de 
una disciplina profesional a la vez que adquieren conocimientos de esa disciplina. 

Segun Fennimore y Tlnzmann (1990), los cuatro principios clave que se 
detallan a continuacidn caracterizan un curriculo razonado. 



La promocion de un aprendizaje profundo 

Un curriculo razonado ayuda a los alumnos a adquirir los conceptos y herramientas 
clave para crear, utilizar y comunicar los conocimientos en im determinado campo. 
El suficiento conocimiento de un campo implica una red integrada de 
conocimientos y conceptos en lugar de una recopilacidn de hechos aislados. 

En un curriculo razonado los alumnos desarrollan una capacidad de 
comprensidn profunda de los conceptos esenciales y de los procesos que necesitan 
para enfrentarse a estos conceptos, parecida a los m^todos utilizados por los 
expertos al abordar sus tareas. Por ejemplo, los alumnos utilizan fuentes primarias 
para construir hechos histdricos; disenan experimentos para dar respuesta a sus 
preguntas sobre fendmenos naturales; utilizan las matemdticas en relacidn con los 
sucesos y sistemas del mundo real; y escriben para un lector real. 



Objetivos de contenido y proceso en tareas del mundo real 

En lugar de centrarse en destrezas simples y aisladas, los alumnos adoptan el 
razonamiento complejo e integral para enfrentarse a cuestiones fuera del aula. 
Segun Resnick (1989) este razonamiento de la vida real muchas veces implica: 
procesos significativos de tomar decisiones y resolver problemas; colaborar con 
otros; utilizar las herramientas disponibles; establecer lazos con los sucesos y 
objetos del mundo real; y utilizar conocimientos interdisciplinarios. 
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Desempeno integral en entornos cada vez desafiantes 

Un currfculo razonado no alsla destrezas y hechos. En su lugar incluye el 
desempeno integral de tareas significativas y complejas en entornos cada vez mds 
desafiantes. Los materiales y el contenido est^ estructurados de tal manera que los 
alumnos regulan su propio aprendizaje de forma gradual. Este m^todo asegura que 
el aprendizaje motive a los alumnos y despierta en ellos un sentido de eficacia y 
confianza. 



Concatenar el contenido y el proceso a la experiencia previa de 
los alumnos 

Un curriculo razonado tiene en cuenta las experiencias y los conocimientos que el 
alumno lleva consigo cuando va a la escuela. Luego se aumenta y refina estos 
conocimientos previos al concatenarlos con el nuevo aprendizaje. Esto logra que el 
contenido curricular sea pertinente a los asuntos y tareas importantes en la vida de 
los alumnos. Cuando los alumnos relacionan el aprendizaje escolar con su vida real 
est^ mds dispuestos a buscar y valorar las perspectives de los otros — companeros, 
maestros, padres, miembros de su comuni dad y expertos. Al hacerlo asi, 
desarrollan competencias interpersonales para crear y participar en didlogos con 
individuos que poseen diferentes perspectives y que proceden de distintos 
ambientes. 



Vincular la evaluacion y la ensenanza 

En la ilustracidn 2.2 se resume muchos de los principios bdsicos del aprendizaje 
que hemos tratado en este capitulo y se describe algunas de las consecuencias que 
estos principios tienen tanto en la ensenanza como en la evaluacidn. Como muestra 
la ilustracidn 2.2, la evaluacidn no s61o evaliia cu4nto se ha aprendido en una 
determinada imidad didlctica, sino que ademds proporciona informacidn 
actualizada a alumnos y maestros sobre su progreso y posibles formas de mejorar. 
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llustradon 2.2 

Vincular la evaluacion y la ensenanza: 
Implicaciones de la teona cognitiva del aprendizaje 



Teona: El conocim lento se construye. El aprendizaje es un proceso de crear un 
significado personal utilizando la mformadon nueva y los conodmientos previos. 

Implicadones para la ensenanza/evaluadon: 

• Fomentar la discusion de ideas nuevas. 

• Fomentar el razonamiento divergente, esiabones y soluciones multiples, 
no solo una respuesta correcta. 

• Fomentar modos de expresion multiples, por ejempio, 
caracterizaciones, simulacros, debates y exposiciones. 

• Enfatizar las destrezas de pensamiento critico: analizar, comparar, 
generalizar, predecir, formar hipotesis. 

• Reladonar la nueva informacion con la experiencia personal, 
conocimientos previos. 

• Aplicar informacion a una situacion nueva. 

Teoria: Todas las edades/capaddades pueden razonar y resolver problemas. El 
aprendizaje no sigue necesarlamente una progresion lineal de destrezas aisladas. 

Implicaciones para la ensenanza/evaluadon: 

• Lograr la participacion de todos los alumnos en la resolucion de 
problemas. 

• No hacer que la resolucion de problemas, el pensamiento crftico o la 
discusion de los conceptos dependa del dominio de las destrezas 
basicas habituales. 

Teoria: Hay una gran variedad de estilos de aprendizaje, periodos de 
concentracion, memorias, velocidades del desarrollo e inteligencias. 

Implicaciones para la ensenanza/evaluacldn: 

• Ofrecer opciones de tareas (no s6lo la comprension de la lectura y la 
expresion escrita). 

• Ofrecer opciones de como demostrar dominio/aptitud. 

• Dar tiempo para planificar y realizar trabajos. 

• No explotar el uso de examenes cronometrados. 

• Ofrecer la oportunidad de revisar y volver a pensar. 

• Incluir experiencias concretas (manipulativas, vmculos con experiencias 
previas). 

(continuacion) 
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llustracion 2.2 — continuacidn 



Teona: Los individuos rinden mejor cuando conocen el objetivo, ven modelos, 
interpretan su rendimiento comparandolo con la norma. 

Implicaciones para la ensenanza/evaluadon: 

• Discutir objetivos; permitir que los alumnos ayuden a definirlos (los 
personales y los del aula). 

• Proporcionar una amplia gama de muestras de trabajos de alumnos; 
discutir las caracteristicas. 

• Proporcionar a los alumnos la oportunidad de autoevaluarse y de 
evaluarse entre companeros. 

• Discutir los criterios para calificar el rendimiento. 

• Permitir que los alumnos ofrezcan ideas sobre los criterios. 

Teona: Es importante saber cuando utilizar los conocimientos, como adaptarlos, 
c6mo dirigir el propio aprendizaje. 

Implicaciones para ensenanza/evaluacion: 

• Ofrecer oportunidades reales (o simulacros) para aplicar/adaptar nuevos 
conocimientos. 

• Hacer que los alumnos se autoevaluen: pensar sobre como aprenden 
bien/mal; establecer nuevas metas, por que les gustan ciertos ejercicios. 

Teona: La motivadon, el esfuerzo y la autoestima influyen en el aprendizaje y en 
el rendimiento. 

Implicaciones para la ensenanza/evaluacion: 

• Motivar a los alumnos con tareas reales y vfnculo con experiencias 
personales. 

• Ayudar a los alumnos a que aprecien el vinculo entre esfuerzos y 
resultados. 

Teoria: El aprendizaje tiene componentes sociales. El trabajo en equipo tiene 
mucho valor. 

Implicaciones para la ensenanza/evaluacion: 

• Incluir el trabajo en equipo. 

• Incorporar grupos heterogeneos. 

• Dejar que los alumnos desempenen papeles distintos. 

• Considerar los productos de grupo y los procesos de grupo. 



Los diferentes tipos de evaluacidn fomentan objetivos multiples que incluyen, 
pero no de forma exclusiva, la adquisicidn de conocimientos de contenido 
curricular. Los exdmenes ya no se limitan a tareas escritas, cronometradas y 
preestablecidas para que los alumnos en solitario demuestren lo que saben. La 
evaluacidn hoy en dia se realize en muchos contextos e incluye el trabajo 
individual y en equipo, ejercicios con ayuda o sin ella, y perfodos de tiempo cortos 



o 

ERIC 



27 



20 



VINCULAR LA EVALUACI6n Y LA ENSENANZA 



o largos. La libre discusi6n entre maestros, alumnos e incluso padres sobre los 
criterios de rendimiento y calificaciones que se ban de utilizar, es la marca 
distintiva de la evaluacidn altemativa. Al ser la evaluacion ima parte integral de la 
ensenanza, la consideracidn de objetivos docentes es el primer paso crucial en la 
planificacidn de tareas de evaluacion y baremos de puntuacidn significativos. 
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El primer paso en la elaboracidn o selecci6n de una evaluacidn es conocer los 
objetivos de esa evaluacidn: ipara qu6 se necesitan los resultados? iQu6 aspectos 
del rendimiento del alumno interesan? 

Aunque este libro no pretende ser un m^ual sobre los objetivos y aplicaciones 
de la evaluacidn, habrd que tener en cuenta cudles son los objetivos que.se deseari 
a lo largo de todo el proceso evaluative. ^Es nuestro objetivo principal evaluar los 
logros de los alumnos — ^por ejemplo, que tal ban aprendido a escribir relates, a 
comunicarse oralmente, a sintetizar su investigacion? Si es asl, nuestro mayor 
interns serd evaluar la calidad o nivel de los logros de los alumnos a efectos de 
calificacion, de colocacidn por nivel es y de seguimiento del progreso, o a efectos de 
objetivos de evaluacidn y responsabilidad adjudicada o rendir cuentas 
{accountability) a nivel escuela, distrito y a nivel de otros objetivos extraescolares. 
Puesto que la principal finalidad es averiguar hasta qu6 punto los alumnos ban 
logrado asimilar distintos conocimientos y destrezas, la evaluacidn debe enfocarse 
en los resultados o el producto del aprendizaje del alumno. 

Sin embargo, si el objetivo de la evaluacidn es diagnosticar para luego mejorar, 
por ejemplo el diagndstico de los puntos fiiertes y debiles de un alumno, 
recomen dar los programas . de ensenanza mds apropiados, o identificar las 
estrategias que los almnnos saben emplear bien y aquellas con las que tienen 
problemas, necesitaremos una evaluacion que nos proporcione informacidn tanto 
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del proceso como del resultado. iQu6 han logrado 16s alumnos y c6mo lo han 
hecho? La informacion de procesos nos proporciona tales explicaciones. 

Los objetivos y la utilizacidn de una evaluacidn determinada estan 
directamente relacionados con el tiempo que dedicamos a la recopilaci6n de 
pruebas de fiabilidad y validez, tema que tratamos mds detalladamente en los 
capftulos 6 y 7. Entre m4s se ponga en juego todo lo referente a la evaluacl6n, mayor 
serd la necesidad de recopilar informes de fiabilidad y validez. Es fundamental 
adecuar los niveles de ambos cuando, por ejemplo, los resultados van a utilizarse 
para pasar a un alumno a un curso superior, o transferirlo a una clase de atencidn 
especial, o para premiar a maestros o escuelas. 



Establecer los objetivos didacticos principales 

Una buena evaluacidn exige que conozcamos y seamos capaces de articular 
nuestros objetivos diddcticos principles. Estos determinan qud aspectos del 
rendimiento nos interesa conocer. iQud es lo que queremos que los alumnos logren 
en una unidad diddctica, un curso, una disciplina, o en varies disciplines? ^En qud 
deberia consistir nuestro programa diddctico? iQud deberian ser capaces de hacer 
los alumnos al tdrmino de una unidad diddctica, de un curso o de un ano escolar 
que no podfan hacer antes? ^Cuales son las dreas importantes del desarrollo del 
alumno sobre las que queremos influir? 

Las respuestas a estas preguntas definen nuestras prioridades en el aula y 
representan los principales objetivos de nuestras actividades diddcticas. Estas 
mismas prioridades deberian tambi^n ser la base de las tareas de evaluacidn que 
requerimos de los alumnos. Esto contribuye a una evaluacidn justa — los alumnos 
tienen la oportunidad de adquirir los conocimientos y destrezas que esteunos 
evaluando — y tambi^n contribuye a una tarea de evaluacidn significative que 
refuerza las destrezas y logros que consideramos m4s importantes. 



Establecer nuestras finalidades prioritarias 

Mientras que designer objetivos puede parecer facil, es desafiante establecer 
prioridades de entre miles de posibilidades. iQu6 campos del conocimiento, 
destrezas y disposiciones valen la pena ensenar y evaluar? iQu6 finalidades 
educativas se pretende alcanzar? Puesto que las evaluaciones del rendimiento 
requieren de mucho tiempo y energia — tanto por nuestra parte como por parte de 
nuestros alumnos — ^habra que centrarse en un niimero relativamente pequeno de 
finalidades importantes, pudiendo cada una representar un mes o un trimestre de 
docencia. Estas evaluaciones deben enfocarse en nuestros principales objetivos de 
aprendizaje para nuestros alumnos. Para poder definir estos objetivos, es 
indispensable formularse las siguientes preguntas interrelacionadas (a las que se ha 
anadido algunas posibles respuestas): 
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1* destrezas cognitivas importantes deseo que adquieran los alumnos? 

Quiero que los alumnos sean capaces de: 

• Comunicarse por medio de la expresidn escrita de forma eficaz, o peua 
ser mds preciso, escribir de una manera persuasiva, escribir buenas 
descripciones y escribir relates. 

• Comunicarse oralmente con eficacia. 

• Analizar la literatura teniendo en cuenta el argumento, los personajes, 
la ambientacidn, y el tema. 

• Analizar temas utilizando fuentes primarias y material de consulta. 

• Utilizar el dlgebra para solucionar problemas cotidianos. 

• Analizar acontecimientos actuales desde perspectivas histdricas, 
politicas, geogrdficas y multiculturales. 

• Disenar y dirigir estudios para facilitar la toma de decisiones sobre 
problemas actuales o cotidianos. 

• Utilizar el mdtodo cientffico. 

• Utilizar distintos medios para expresar lo que saben. 

2. ^Que destrezas sociales y afectivas deseo que adquieran los alumnos? 

Quiero que sean capaces de: 

• Trabajar de forma independiente. 

• Desarrollar un espiritu de equip o y las destrezas de trabajo en equip o. 

• Apreciar sus propios puntos fuertes. 

• No desistir ante los desaffos. 

• Enorgullecerse de su trabajo. 

• Disfrutar y valorar el aprendizaje. 

• Confiar en sus habilidades. 

• Tener un escepticismo sano acerca de las poldmicas y posturas de la 
actualidad. 

• Comprender que todos tenemos nuestros puntos fuertes y que 
cualquier persona puede destacar de alguna forma. 

3. ^Que destrezas metacognitivas deseo que adquieran los alumnos? 

Quiero que sean capaces de: 

• Reflexionar sobre el proceso de escribir que emplean, evaluar su 
eficacia y formular sus propias ideas para mejorsulo. 

• Discutir y evaluar sus estrategias para la resolucidn de problemas. 

• Formular planes eficaces para completar sus proyectos individuales y 
para controlar su progreso. 

• Evaluar la eficacia de sus estrategias de investigacidn. 

4. ^Que tipos de problemas deseo que los alumnos sean capaces de resolver? 

Quiero que: 

• Sepan como investigar. 

• Resuelvan problemas que requieren de demostracidn geomdtrica. 

• Comprendan los tipos de problemas que la trigonometrfa les puede 
ayudar a resolver. 

• Apliquen el mdtodo cientffico. 

• Predigan consecuencias. 
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• Resuelvan problemas que no tienen una unica respuesta correcta. 

• Tomen decisiones apropiadas. 

• Green expresiones propias originales. 

5. ^Que conceptos y principios deseo que los alumnos sean capaces de aplicar? 

Quiero que sean capaces de: 

• Entender el concepto de democracia. 

• Entender las relaciones causa-efecto en la historia y en la vida 
cotidiana. 

• Entender el significado de diversas propuestas logicas. 

• Criticar obras literarias basdndose en su argumento, ambientacidn, 
intencion, etcetera. 

• Entender y reconocer las consecuencias del abuso de estupefacientes. 

• Aplicar los principios basicos de la ecologia y de la conservacidn en 
su vida diaria. 

Debemos ser lo mas especificos posible a la bora de formular las respuestas a estas 
preguntas. No debieramos aspirar a una informacion tan detallada como la que se 
utilizd en los objetivos de conducta del pasado, sino que debemos describir 
nuestras finalidades prioritarias con suficiente detalle como para que otros puedan 
estar de acuerdo con lo que significan estas finalidades y si es que los alumnos las 
ban alcanzado. 



Utilizar fuentes disponibles 

Adem4s de utilizar nuestra propia opinidn a la bora de contestar las preguntas que 
acabamos de formular, tambien podria resultar util consultar directrices 
curriculares, expertos en contenido curricular o proyectos innovadores que reflejen 
la filosofia educativa individual. A continuacidn se detallan algunas fuentes que 
podrian ser de interes. 



Grupos curriculares nacionales 

Una fuente de gran utilidad es el Curriculum and Evaluation Standards for School 
Mathematics, publicado por el “Consejo Nacional de Maestros de Ciencias Exactas” 
(“National Council of Teachers of Mathematics 1989). En esta fuente se da gran 
importancia al desarrollo de las capacidades de los alumnos para la utilizacidn de 
las matemdticas a la bora de resolver problemas, razonar y comunicarse. Ademds, 
alienta a los alumnos a valorar las matemdticas y a sentirse seguros sobre sus 
habilidades matemdticas. Por ejemplo, segiin los criterios de comunicacidn del 
“NCTM” los alumnos deberian ser capaces de: 

■ Articular las razones por las que utilizan una representacidn o solucidn 
matemdtica en particular; 
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■ Interpretar y resumir los dates que han recopilado; 

■ Describir como se relacionan los conceptos matemdticos con los modelos 
fisicos o graficos; y 

■ Justificar sus argumentos utilizando el razonamiento deductive o 
inductive. 

Estos principales objetivos del rendimiento del alunino pueden estimular las ideas 
sobre aquellos objetivos que se quiere establecer para los alunmos en el campo de 
las matemdticas. 

De hecho, grupos de distintas disciplinas acad^micas est^ desarrollando, o 
han desarrollado sus propias listas de objetivos. La “Asociacion Americana para el 
Avance de la Ciencia” (“American Association for the Advancement of Science;” 
AAAS 1989) ha formulado una serie de recomendaciones para la reestructuracion 
del curriculo de las ciencias que aparecen en la publicacion titulada Science for All 
Americans: Project 2061. Este informe recomienda cuatro objetivos para la 
ensenanza de las ciencias: entender el esfuerzo cientffico, desarrollar visiones 
cientificas del mundo, formular perspectives histdricas y sociales de la ciencia y 
adquirir hdbitos mentales cientfficos. 

El “Consejo Nacional de Maestros de Ciencias Sociales” (“National Council of 
Teachers of Social Studies”), el “Consejo Nacional de Maestros de Ciencias” 
(“National Council of Teachers of Science”) y el “Consejo Nacional de Maestros de 
Inglds” (“National Council of Teachers of English”) son todos fuentes valiosas de 
informacidn en sus disciplinas respectivas. El “Centro de Educacidn Civica” 
(“Center for Civic Education”) ha publicado Civitas que cubre toda la educacidn 
civica (Quigley y Bahmueller 1991). 



Directrices estatales del curriculo 

Las directrices estatales del curriculo ofrecen otra valiosa fuente de informacidn. 
California estd a la cabeza en el desarrollo de unas directrices de ciencias histdrico- 
sociales, que incluye historia, geografia, economla, ciencias pollticas, antropologia, 
psicologla, sociologla y humanidades (California State Department of Education 
1988). Las directrices incluyen tres dreas de objetivos principales. Cada 4rea 
contiene llneas curriculares que suben en espiral a lo largo de la educacidn de un 
alunrno: 

■ Objetivos de conocimiento y comprensidn cultural 

— familiarizacidn con ia historia 

— familiarizacidn con la etica 

— familiarizacidn con la cultura 

— familiarizacidn con la geografla 

— familiarizacidn con la economla 

— familiarizacidn con la sociopolltica 
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■ Objetivos de aprendizaje de destrezas y participacidn social 

— destrezas basicas de estudio 

— destrezas de pensamiento critico 

— destrezas de participacidn 

■ Objetivos de comprensidn democrdtica y valores cfvicos 

— identidad nacional 

— patrimonio constitucional 

— valores cfvicos, derechos y responsabilidades 

Cada una de estas dreas comprende un mimero de objetivos de aprendizaje que 
podrfan ser temas de evaluacibn. Por ejemplo, las destrezas de parti cipacibn en el 
apartado “objetivos de aprendizaje de destrezas y participacibn social” incluyen 
destrezas personates, destrezas de interaccibn en grupo y destrezas de participacibn 
social y polftica. “La familiarizacibn con la economfa” incluye cuestiones 
especfficas relacionadas con los problemas econbmicos fundamental es a los que se 
tiene que enfirentar cada sociedad; sistemas econbmicos comparativos; objetivos 
econbmicos fundamentales, rendimiento y problemas de la sociedad; y el sistema 
econbmico intemacional. 

Connecticut ha formulado el “Common Core of Learning” (1987), una serie de 
criterios de aprendizaje comunes dirigido a alumnos de educacibn media. Los 
criterios incluyen destrezas gen6ricas, que se encuentran en todas las disciplinas, 
y las grandes ideas y destrezas^ conceptos, procesos y t6cnicas que caracterizan una 
disciplina especffica. Estas destrezas genbricas constituyen un punto de partida 
para establecer las final! dades clave de los alumnos en cualquier disciplina. Estas 
destrezas genbricas son: 

■ comunicarse con claridad; 

■ formular pregimtas; 

■ formular problemas: 

■ pensar y razonar; 

■ resolver problemas complejos; 

■ sintetizar conocimientos obtenidos de varies fuentes; y 

■ cooperar y colaborar. 

Las destrezas, las tbcnicas y los procesos cientfficos de Connecticut, que tambibn 
son genbricas, incluyen: 

■ desarrollar una hipbtesis; 

■ disenar experimentos; 

■ sacar conclusiones a partir de unos datos; 

■ observer y analizar semejanzas y diferencias entre los diversos fenbmenos; 

y 

■ trabajar con material de laboratorio. 
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Otras fuentes 

Otra fuente de informacidn para el desarrollo de la evaluacidn la encontramos en 
directrices que se han hecho para evaluaciones nacionales e intemacionales. La 
“Evaluacidn Nacional del Progreso Educativo” (“National Assesment of 
Educational Progress”; NAEP) evaliia regularmente el rendimiento escolar en 
asignaturas como matemdticas, lengua, ciencias, historia, geografia y en el 
alfabetismo adulto. Como parte de su operacidn, NAEP lleva a cabo un proceso de 
consenso nacional que define las directrices de contenido de cada evaluacidn y 
establece una serie prioridades para el exito escolar. (Para mds informacidn sirvase 
comunicarse con el Educational Testing Service, Rosedale Road, Princeton, NJ 
08541; tel6fono (609) 921-9000). 



Aprovechar las campanas de reestructuracion escolar 

Los grupos involucrados en campanas de reestructuiacidn escolar son una fuente 
adicional. Por ejemplo, un aspecto fundamental en la campana de la “Coalition of 
Essential Schools” consiste en una exposicidn final en la que los alumnos 
demuestran sus habilidades. Los miembros de esta coalicidn han estudiado con 
mucho detenimiento cuales deberian ser estas habilidades. Diversas escuelas han 
propuesto perfiles de las habilidades que sus alumnos deben haber adquirido al 
finalizar el ano lectivo o al graduarse de la escuela. A continuacidn presentamos 
algunos ejemplos: 

■ Los almnnos de esta asignatura podrcin comprender mejor muchas de las 
cuestiones a las cuales se enfirenta su generacidn. Serdn capaces de hablar 
y escribir sobre temas actuales con conocimiento, curiosidad y honestidad. 
Y reflexionardn detenidamente sobre el papel que desempenan en calidad 
de presentadores de informacidn (Parkviray South, temas contempordneos). 

■ Los alumnos... principalmente aprenderdn a aplicar los conceptos 
geomdtricos a situaciones del mundo real (Sullivan High School, 
matemdticas). 

■ Los alumnos en esta asignatura aprenderdn a trabajar en equip o para 
producir trabajo informativo de gran calidad. Obtendrdn conocLmientos 
sdlidos de las tdcnicas de campo necesarias para estudiar ecologia. Se 
sentirdn orgullosos al saber que han contribuido de forma tangible a su 
comunidad...Y quizds, lo mds importante, obtendrdn una buena 
comprensidn y un sentimiento de responsabilidad por el entomo natural 
en el que viven (Sullivan High School, ecologfa). 

■ Al finalizar sus estudios, los alumnos de esta escuela sabrdn c6mo explorar 
las ideas a fondo y de manera significativa y serdn capaces de expresar sus 
pensamientos de manera elocuente, coherente y correcta (Sullivan High 
School, humanities). 
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B Los alumnos al finalizar sus estudios en el Metro High School tendrdn una 
clara idea de cudles son sus intereses y aptitudes individuales. Al finalizar 
la escuela se sentirdn seguros de tener las destrezas necesarias para 
alcanzar sus metas, las cuales han estudiado y planeado con mucho 
detenimiento. 

B Al finalizar sus estudios, los alunuios de esta escuela serdn adultos 
motivados, perspicaces y exigent es que piensan de una forma 
independiente y responsable. Tendrdn unos conocimientos amplios del 
temario, unas destrezas de aprendizaje bien desarrolladas...(Crefeld 
School). 

Declaraciones de este tipo y descripciones de c6mo se llevan a cabo las 
exposiciones se encuentran en The Exhibitions Collections, disenadas y 
distribuidas por la Coalicidn de la Universidad de Brown. (Sfrvase comunicarse 
con Joe McDonald, Coalition of Essential Schools, Brown University, Box 1969, 
Providence, RI 02912; tel^fono (401) 863-3384; FAX (401) 863-2045.) 

Entre otras fiientes de objetivos escolares significativos e innovadores se 
encuentran el Proyecto de Aprendizaje Acelerado de Henry Levin (Henry Levin’s 
Accelerated Learning Project) (1989); el Proyecto de James Comer (Comer y Haynes- 
Norris 1991); el Proyecto Foxfire de Elliot Wiggington (Puckett 1989); y el curriculo 
de Otras Maneras de Ap render del Institute Galef (Galef Institute’s Different Ways 
of Knowing curriculum) (Galef Institute 1992). 



Considerar objetivos interdisciplinarios 

Muchas de las nuevas directrices que estdn siendo desarrolladas muestran un 
creciente reconocimiento de los objetivos interdisciplinarios. Los criterios de 
matematicas de la NCTM ponen atencidn en las destrezas comunicativas. La AAAS 
considera que las matematicas, las ciencias y la tecnologfa estdn integralmente 
relacionadas y recomienda que los alumnos entiendan como fue que las ideas 
importantes de la ciencia surgieron de sus particulares contextos histdricos, 
culturales e Intel ectuales. En las directrices de las ciencias historicosociales de 
California y en muchas de las exposiciones de la Coalicion de Escuelas se describe 
un mdtodo curricular interdisciplinario. Durante el desarrollo de la evaluacion, 
tambien se puede considerar la posibilidad de destacar los objetivos 
interdisciplinarios para los alumnos. 



Consultar con los colegas 

iCudles son los objetivos especificos del currfculo de nuestra clase y de nuestro 
programa docente? A la bora de consultar fuentes disponibles que nos respondan 
a esta pregunta no debemos dejar a un lado a nuestros colegas. La colaboracion 
entre colegas fomenta llegar a un consenso a nivel de escuelas y a mejorar las 
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evaluaciones. Si trabajamos en la evaluacibn de un departamento, de una escuela 
o de un distrito, quizes queramos incluir a padres, miembros de la comuni dad y 
representantes del mundo de los negocios en el proceso de preparacion. 



Establecer prioridades significativas: 
una propuesta dincil 

Ya estemos solos o formemos parte de un grupo, probablemente encontraremos que 
ahora tenemos en nuestro haber una larga lista de posibles objetivos para evaluar el 
rendimiento. Conforme revisamos esta lista, ya sea solos o en colaboracion con 
otros, podemos pensar en las siguientes pregun tas para lograr enfocamos en la 
evaluacidn: 

1. ^Cudnto tiempo les llevard a los alumnos desarrollar o adquirir la destreza 
o habilidad? Si la respuesta es una bora, un dia o una semana, 
probablemente no valga la pena invertir el tiempo y el esfuerzo que 
requerina hacer una evEduacidn completa. 

2. ^Como se relaciona la destreza o habilidad deseada con otras destrezas 
cognitivas, sodales y afectivas complejas? Se deberia dar una mayor 
prioridad a las’ destrezas que estan integralmente relacionadas con otras 
destrezas importantes. Es necesario dar prioridad a aqu^llas que puedan 
aplicarse a varias situaciones. 

3. ^C6mo se relaciona la destreza o habilidad deseada con los objetivos 
escolares y curriculares a largo plazo? Hay que dar prioridad a los 
objetivos a largo plazo o a los componentes integrales de objetivos 
importantes a largo plazo. 

4. ^C6mo se relaciona la destreza o habilidad deseada con los planes de 
mejora de la escuela? Es necesario dar prioridad a aqu611as que tienen 
m4s peso dentro del plan. 

5. ^Cudl es la importancia intiinseca de las destrezas o habilidades 
deseadas? Evidentemente hay que dar prioridad a aqu611as que son 
importantes y descartar aquellas que no son m4s que objetivos triviales o 
superficiales. (Aunque parezca obvio, pensemos en todas esas pregun tas 
sobre temas sin importancia a las cuales hemos respondido en los 
ex4menes.) 

6. ^Se pueden ensenar y son posibles de alcanzar las destrezas y habilidades 
deseadas para nuestros alumnos? A la vez que intentamos desafiar a los 
alumnos y sacar a relucir lo mejor de ellos, tenemos que tomar en cuenta 
si los alumnos poseen las necesarias destrezas, conceptos y 
conocimientos bdsicos que son fundamentales para alcanzar los objetivos. 
Teimbien debemos considerar si tenemos el material y aptitud necesaria 
para ayudarles a alcanzar dichos objetivos. 
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Como resultado de ese tipo de proceso para tomar decisiones, se puede identificar 
una serie imprescindible de destrezas y habilidades. Se debe describir cada una de 
ellas con suficiente detalle para que otros entiendan su significado. Aunque se 
necesite revisar estas primeras descripciones, esta lista de prioridades marcard los 
objetivos principales para el diseno de una evaluacidn. 

Para aprender cdmo desarrollar y llevar a cabo evaluaciones altemativas, se 
puede empezar con una evaluacidn en concreto. Hay que tomar en consideracidn 
los objetivos escolares que tengan mds peso, el perfodo del ano y la parte del 
currfculo donde nos encontremos. Luego se debe designer una de las finalidades 
prioritarias como objetivo principal. El siguiente paso serd identificar las tareas 
apropiadas para la evaluacidn de este objetivo. 
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Seleccion de tareas 
de evaluacion 



La clave de una buena evaluacidn estd en ajustar la tarea de evaluacidn a los 
resultados que se desean de los alumnos (los conocimientos, destrezas y 
disposiciones que se identificaron en la primera planificacidn de la evaluacidn). 

tareas o trabajos representan estas habilidades que se buscan? Se podrian 
crear muchas posibilidades interesantes y apropiadas. A1 considerar las tareas de 
evaluacidn, la mejor opcidn serfa elegir aqu^llas que se creen mAs cerca de los 
objetivos de la ensenanza y que permiten a los alumnos demostrar su progreso y 
capacidad. 

Al intentar formular tareas interesantes para los alumnos, es posible que 
algunas no correspondan con las prioridades que en un principio se tenfan, pero sf 
podrfan representar objetivos importantes que se dejen de lado. Esto es un ejemplo 
de c6mo el proceso de desarrollo de la evaluacidn no es lineal. Las decisiones que 
se toman a cada paso se ven influidas por las que les preceden y las que les siguen. 
Hay muchos maestros que encuentran mAs Mcil describir cudles son los objetivos 
v41idos para los alumnos despuAs de pensar en los tipos de trabajos que consideran 
mAs interesantes, desafiantes y utiles para ellos. 

Hay que tener en cuenta algunas cuestiones a la bora de disenar tareas de 
evaluacidn que sean apropiadas. La ilustracidn 4.1 nos muestra ima perspectiva 
conceptual de algunas de estas cuestiones. En esta ilustracion se aprecia claramente 
la dificultad de pensar en tareas de evaluacidn sin tener en cuenta a la vez los 
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criterios que se van a utilizar para evaluar el rendimiento en esas tareas. Aunque en 
el capitulo 5 tratamos los criterios del rendimiento, veremos c6mo esta separacidn 
demuestra que llevar a cabo la planificacidn de una evaluacidn no es tarea ni facil 
ni lineal. 



Elegir las tareas convenientes 

La respuesta a las siguientes preguntas nos ayudara a seleccionar las tareas de 
evaluacion. 



2 Hay concordanda entre la tarea y las intendones didacticas 
especificas? 

Al intentar evaluar un unico aspecto, es fdcil que surjan ideas de posibles tareas. 
Por ejemplo, si se quiere que los alumnos se comuniquen con eficacia, parece obvio 
que se les debe pedir que escriban algo. Pero ^que deben escribir? Si todavia no se 
ha marcado objetivos especificos diddcticos — ^por ejemplo, los tipos de textos 
escritos que se requiere de los alumnos; narrativos, expositivos y persuasivos — 
ahora es el momento de hacerlo. De igual manera, si se quiere que los alumnos sean 
capaces de aplicar el metodo cientifico, parece logico pedirles que lleven a cabo 
experimentos o realicen estudios enfocados a algiin tema, pero tambien es 
necesario decidir qu6 contenidos y destrezas especificas deberia incluir la tarea. 
^Que tipo de experimentos? ^Qu6 clase de estudios; un estudio de la composicidn 
del abono? ^Una investigacidn sobre las necesidades de la comunidad? ^Un estudio 
escolar de los hdbitos alimenticios? Es importante que la tarea de la evaluacidn 
concuerde con la final! dad didactica que se pretende evaluar. 



2Es adecuada la tarea al contenido y destrezas que se espera que los 
alumnos aprendan? 



Segiin las teorias modemas de aprendizaje, el contenido y el proceso est4n 
mtimamente ligados. Por ejemplo, el proceso de razonamiento a seguir en las 
ciencias sociales es diferente al de las matematicas. Para poder resumir por escrito 
un contenido bioldgico se requieren conocimientos y destrezas distintas a aquellas 
que se necesitan para hacer un resumen de un texto literario. Por ello, ademds de 
especificar la naturaleza general de la tarea, se necesitard pensar sobre ios temas 
especificos o ^eas tematicas que se van a pedir a los alumnos. Por ejemplo, si se 
desea que los alumnos escriban textos persuasivos, ^cual seria el tema de su 
trabajo? ^Sena un problema hipotetico, un problema escolar, un dilema personal, 
un tema de actualidad, un asunto local, una solucidn matemdtica o un problema 
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6tico? campo de contenido se espera que utilicen — sus conocimientos 

previos, uiia investigacidn adicional o sus conocimientos personales? 

Supongamos que se quiere que los alumnos sean capaces de realizar 
experimentos cientfficos, por ejemplo experimentos quimicos, para la resolucidn 
de problemas. A1 decidir la tarea de evaluacidn, habrd que tener en cuenta otros 
temas de contenido especificos. iCon qu6 tipos de sustancias deberian trabajar? 
iQu6 clase de problemas — andlisis, diseno o evaluacidn? qu6 tipo de 
propiedades quimicas se quiere que incorporen? iQu6 tipo de material deberian 
saber manejar? En resumen, ^cudl es el campo de contenidos, conceptos, principios 
y t^cnicas con las que los alumnos deberian estar familiarizados? Y basdndose en 
§stos ^cudl seria un buen ejemplo de lo que se espera de los alumnos? ^Se quiere 
que analicen sustancias desconocidas con determinadas propiedades, que predigan 
qu6 producto le irfa mejor a un determinado propdsito, o que determinen qu6 
cultivo seria el m^ eficaz y econdmico para acabar con el hambre? 



^Permite la tarea que los alumnos demuestren su progreso y capacidad? 

A1 pensar en el contenido especifico que se espera con relacidn al rendimiento de 
un alumno, surgen una serie de temas interrelacionados sobre la imparcialidad de 
la tarea y la posible falta de objetividad. iQud conocimientos previos del alumnos 
presupone la tarea? ^Han tenido los alumnos la oportunidad de adquirir estos 
conocimientos? ^Incluye la tarea destrezas que son relevantes para el deseado 
objetivo de la evaluacidn? En otras palabras, ^es la tarea una evaluacidn justa de lo 
que saben los alumnos y podrdn los alumnos demostrar sus aptitudes y 
capacidades? Tomando otro ejemplo de la expresidn escrita, es sabido que los 
alumnos necesitan de conocimientos previos para los temas sobre los cuales tienen 
que escribir. Sin estos conocimientos, no podrian decir nada. La estimacidn del 
nivel de las destrezas de expresidn escrita siempre estA unida a lo que los alumnos 
saben (o no saben) sobre el tema en cuestidn. A la vez que se formulan temas 
especificos para los alumnos, hay que prestar atencidn a la interrelacidn que existe 
entre el contenido y la destreza. Hay que evitar que las habilidades de los alumnos 
para demostrar sus destrezas se vean entorpecidas por la inclusidn en la evaluacidn 
de algo que puede ser irrelevante a los objetivos. Por ejemplo, si los alumnos no 
estdn al corriente de los temas de actualidad, no se puede esperar que escriban un 
texto elocuente y tomen una postura sobre una cuestidn nacional del momento. O 
si los alumnos no son buenos lectores no se debe entorpecer su capacidad para 
demostrar sus destrezas en la expresidn escrita pi didn doles, por ejemplo, que 
escriban sobre un articulo de The New York Times. Por supuesto se debe tener 
objetivos de lectura para los alumnos y quizd se quiera que adquieran 
conocimientos sobre temas de actualidad, pero hay que evitar frustrar 
accidentalmente su capacidad para demostrar destrezas especificas, o etiquetarles 
equivocadamente como no aptos, apoydndose en una tarea inapropiada o en la falta 
de oportunidad para la adquisicidn de los necesarios conocimientos previos y 
destrezas. 
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Una solucidn al dilema de los conocimientos previos es facilitar a los alumnos 
el acceso a fuentes relevantes, que saben manejar, como parte del proceso 
evaluative. Por ejemplo, en Connecticut los alumnos de educacidn media dentro de 
la asignatura de quimica disenan y llevan a cabo experimentos en los que tienen 
que distinguir sustancias desconocidas y averiguar cu^ gaseosa contiene aziicar y 
cull no. La tarea evalua aspectos diferentes dependiendo de los libros de texto y de 
otras fuentes que se permite consul tar a los alunmos. Si los maestros limitan tales 
fuentes, el rendimiento del alunmo dependerl de si recuerda las pruebas 
especificas para los azucares y su composicidn quimica. Aquellos alunmos que no 
recuerdan con facilidad estos hechos, no llegarln muy lejos en la preparacidn o en 
la realizacidn de las pruebas apropiadas. Por otro lado, si los maestros permiten que 
los alunmos tengan acceso a las fuentes relevantes, la tarea evalua mas 
directamente si los alunmos saben como disenar y llevar a cabo experimentos 
cientificos, suponiendo, por supuesto, que sus libros de texto no contengan la 
solucidn del problema. ^Cudl es el mejor m^todo? La respuesta depende de las 
intenciones y expectativas del profesor. 

Otra solucion al dilema de los conocimientos previos es proporcionar a los 
alunmos una variedad de opciones en la tarea evaluativa, por ejemplo, ddndoles 
libertad para escoger la forma de expresidn que deseen — expresidn escrita, oral, 
visual o musical, y una variedad de tareas de dificultad diverse. 



^Utiliza la evaluacion tareas autenticas del mundo real? 

Los tedricos contempordneos del curriculo destacan la importancia de involucrar a 
los alumnos en tareas autenticas y del mundo real ya que parecen mds motivadoras 
y poseen una mayor transferibilidad que las tareas acaddmicas mds tradicionales y 
descontextualizadas. Tambidn proponen estos tedricos que involucrar a los 
alunmos en el proceso de una discipline mientras adquieren o demuestran 
conocimientos en esa discipline es una potente estrategia de aprendizaje. Por 
ejemplo, la tarea de quimica de Connecticut trata a los alunmos como cientificos y 
les pregunta sobre algo con lo que estdn muy familiarizados en el mundo real. 

De igual manera el “Prototipo de Evaluacidn de Contenido” (Content 
Assesment Prototype) en historia, desarrollado por Eva Baker y colegas (1992) en 
CRESST, trata a los alumnos como historiadores en tareas que son reales. A los 
alunmos se les pide que lean el material de fuentes primarias, por ejemplo una 
versidn abreviada de los debates Lincoln-Douglas. Luego tienen que recurrir a sus 
conocimientos previos y a lo que conocen del tema para explicar los hechos 
histdricos tratados en estos documentos e incorporar el contenido histdrico — los 
problemas y temas a los que se enfrentaba la nacidn antes de que se desatara la 
Guerra Civil. Con el fin de darle un objetivo autdntico a la tarea, el protocolo de la 
evaluacidn tambidn establece un publico apropiado al que se dirigird las respuestas 
de los alumnos. 

Los problemas del mundo real, las tdcnicas realistas y los autdnticos publicos 
lectores proporcionan innumerables posibilidades para las tareas. Los maestros de 
ciencias sociales, por ejemplo, pueden pedir a los alumnos que investiguen un 
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problema de actualidad y que luego escriban una carta al Congreso de la Unidn o 
al ayimtamiento, o que disenen un anuncio de interns publico en el que se 
recomiende una solucidn. Los maestros de ciencias pueden invitar a los alunmos a 
que escriban cartas a los periddicos o a los senadores de su estado, o que fibnen un 
video sobre problemas ecoldgicos. Los maestros de matemdticas pueden alentar a 
los alumnos para que lleven a cabo una investigacidn sobre las necesidades de la 
comunidad y que redacten un informe o calculen cuanto dinero necesitarian para 
llevar a cabo uno de sus objetivos futures como, por ejemplo, la compra de un 
coche, teniendo en cuenta el precio, los gastos del prestamo/intereses, el seguro, los 
impuestos, el permiso de circulacidn, el mantenimiento, la gasolina, etcetera. 



^Se presta la tarea a un enfoque interdisdplinario? 

Los problemas autdnticos y del mundo real no siempre se ajustan perfectamente a 
los distintos dominios curriculares. Mds bien, los alumnos tienen que hacer uso de 
conocimientos de varias disciplinas y perspectivas. La “carta al editor proponiendo 
una solucidn a un problema ecologico” implica las destrezas comunicativas de los 
alumnos, sus destrezas cientfficas para comprender problemas ecoldgicos 
especificos y sus destrezas interpersonales sabiendo quidn es su publico. En otro 
caso, un proyecto de investigacidn podria requerir de un alunmo que investigara un 
tema, disenara un estudio empirico basado en los datos y principios cientificos que 
investiga, utilizara destrezas matematicas para analizar y mostrar los datos de su 
estudio y que aplicara tanto sus destrezas cientfficas como las comunicativas para 
resumir los resultados y comunicdrselos a otros. 

Las tareas interdisciplinares ofrecen ademds otras ventajas como es el factor 
tiempo y una mds acertada puntuacidn. En realidad, tareas que implican un 
rendimiento significative muchas veces llevan largos perfodos de tiempo y puede 
que simplemente no hay a suficiente tiempo para evaluar las dreas de contenido por 
separado. Las tareas interdisciplinares ayudan a los maestros a evitar este posible 
problema. 



^Se puede estructurar la tarea para evaluar distintos objetivos? 

Es evidente que las tareas interdisciplinares podrfan evaluarse desde las diferentes 
perspectivas de las disciplinas implicadas. Por ejemplo, puesto que la carta al 
editor requiere destrezas de expresidn escrita, destrezas interpersonales y 
conocimientos cientfficos, se podrfa calificar el rendimiento en cada una de estds 
dreas por separado. 

La mayorfa de las tareas de evaluacidn disenadas para evaluar objetivos 
significativos tambien incorporan una serie de destrezas cognitivas, 
metacognitivas, afectivas y sociales. Por ejemplo, el ejercicio de qufmica de las 
gaseosas, que se realize durante varies dfas, incluye los siguientes componentes: 
trabajo en equipo, trabajo individual, un informe oral y la reflexidn individual y de 
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eqiiipo. En grupos reducidos, los alumnos deben en primer lugar participar en la 
tecnica de Iluvia de ideas para obtener ima lista de posibles pruebas que les permita 
averiguar cual de las dos gaseosas es la que contiene aziicar. Luego realizan dos 
pruebas, analizan sus resultados y presentan un informe oral a la clase. Tambi6n se 
pide a cada alrnnno que resuelva otro problema de analisis quiinico parecido. Los 
alumnos reflexionan sobre los puntos fuertes y debiles de su rendimiento a nivel 
individual y a nivel de grupo, sobre el rendimiento de otros miembros del grupo y 
sobre sus actitudes frente a la tarea. 

La estructuracion de “megatareas” que evaliien distintas finalidades requiere de 
mucho ingenio. Si los objetivos de mayor prioridad abarcan el trabajo en equipo y 
el trabajo individual, se puede invitar a los alumnos a trabajar en equipo para 
resolver un problema, pero habrd que motivarlos para que trabajen de forma 
individual durante una o mds etapas del proyecto, poniendo a cada alumno 
individualmente a recopilar y resumir informacion para un proyecto de grupo. 
Alternativamente, si se desea que los almnnos trabajen en equipo para definir y 
resolver un problema en particular, pero cada alumno deberd presentar un informe 
de lo que el grupo ha descubierto. Si se quiere medir hasta que pimto los alumnos 
aceptan los desahos e intentan resolver los problemas a pesar de los esfuerzos y 
dificultades que conlleva, habria que incluir suficientes elementos desafiantes y de 
eleccion propia en la tarea de evaluacidn para que los alumnos puedan mostrar mas 
o menos entusiasmo, esfuerzo y empeho; e incluir para el evaluador alguna manera 
de observer la conducta y el afecto. En el capitulo 5 se discuten los criterios con los 
que se pueden valorar la conducta y el afecto. 

Hay que tener en cuenta que aimque es provechoso y eficaz disenar estas tareas 
de evaluacion multidimensionales, complejas y ricas, tambi^n tiene sus 
desventajas. La mds importante entre dstas es obtener de las respuestas do los 
alumnos aquello que se puede atribuir a la destreza que han adquirido, aquello que 
representa conocimientos previos e incluso la determinacidn del nivel de logro de 
cada alumno. For ejemplo, los alumnos con destrezas de expresidn escrita 
limitadas no serdn capaces de demostrar adecuadamente su nivel real de 
comprension por medio de la escritura. Los alumnos que no estdn muy motivados 
quizds desistan de una tarea larga antes de poder demostrar su nivel de 
competencia. Y si los almnnos participan en trabajos en equipo como parte de la 
tarea, es posible que sea mds dificil evaluar los logros de cada individuo. 



Buscar ideas buenas para las tareas 

La tecnica de Iluvia de ideas con los colegas es una estrategia buena para que surjan 
las primeras ideas para disenar buenas tareas de evaluacidn. Se puede empezar 
pensando en los proyectos docentes mds complejos y exitosos que se han llevado a 
cabo en el pasado. Hay que recorder la primera regia de la Iluvia de ideas: ser 
creativo, anotar todo lo que nos venga a la mente y no criticar ninguna idea hasta 
que esten todas sobre la mesa. Luego se puede combiner, refiner y mejorar los 
mejores aspectos de cada idea que haya surgido. 
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Ademds de hacer uso de las ideas propias, hay que aprovechar los esfuerzos de 
los demds. Se puede adaptar y mejorar las ideas que se han obtenido de revistas 
profesionales, congresos y cursos de formacidn, de observaciones de las clases de 
otros maestros, etcetera. Hay que tener en cuenta que un gran numero de estados, 
distritos escolares y escuelas estdn trabajando para desarrollar estos nuevos 
m^todos de evaluacidn. Si un estado ya tiene su propia evaluacidn, dsta puede ser 
una fuente de ideas. CRESST estd armando una base de dates de los esfuerzos que 
se han hecho a nivel nacional, los cuales distribuirdn a travds de ERIC. Esta base de 
dates incluird muestras de evaluaciones de rendimiento en una amplia gama de 
asignaturas de distintos cursos. Aunque ninguna de estas muestras se ajuste 
totalmente a las necesidades y objetivos de cada uno, se puede tomar prestado las 
ideas sobre la evaluacidn que representan, las escalas que utilizan para puntuar el 
rendimiento de un alumno, etcdtera. Incluso aunque no seamos maestros de 
quunica, nos podrfa intrigar el mdtodo de Connecticut para evaluar el trabajo en 
equipo y podrfamos adaptar sus escalas a nuestro propio trabajo en equipo. La 
evaluacidn Lincoln-Douglas/Guerra Civil de comprensidn y explicacidn, descrita 
anteriormente, puede sugerimos un mdtodo parecido para la evaluacidn de 
alumnos en asignaturas como son las ciencias sociales, naturales o crftica del arte. 

Si las evaluaciones que se estdn desarrollando son parte del esfuerzo de toda 
una escuela, hay que tener en cuenta a otros miembros de la comunidad escolar — 
padres, representantes de negocios y miembros de la comunidad. Los individuos 
que no forman parte de la escuela pueden ser de gran ayuda a la bora de concebir 
tareas aut^nticas del mundo real que demuestren destrezas importantes de razonar, 
de resolver problemas y de comunicacidn. Tambidn pueden ayudar en calidad de 
“revisores de tareas” y para advertimos sobre los tip os de conocimientos, relevantes 
e irrelevantes, que estas tareas representan. 



Describir la tarea de evaluacion 

Hay que especificar o documentar cuidadosamente las tareas de evaluacion 
formales para que otros puedan interpretar los resultados o repetir los mdtodos con 
otros alumnos en otras situaciones. O incluso, lo que es mas importante, ya que se 
supone que las evaluaciones representan el rendimiento de un alumno en un 
dominio mayor, es imprescindible que se sepa cudl es ese dominio mds amplio. 
Una descripcidn de la tarea ayuda a definir el dominio mayor, proporciona los 
cimientos para otras evaluaciones especificas que puedan hacerse y permite revisar 
el trabajo y localizar problemas importantes antes de someterlas a prueba con los 
alumnos. 

Aunque la naturaleza de la tarea de evaluacidn dictard lo que se necesita 
especificar, normalmente se requiere especificar los siguientes aspectos: 

^Cudl es el fin(es) que se pretende con la evaluacidn? 

^Cudles son los contenidos/temas que pueden entrar? 

^Cudl es la naturaleza y el formato de las preguntas que se hacen a los 
alumnos? ^A quidn van dirigidas las respuestas? 
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■ ^Es un trabajo individual o de equipo? Si es trabajo de equipo, ^qu6 roles 
se ban de jugar? 

■ iQu6 opciones/elecciones se permiten? ^Cudles son las opciones de 
respuesta? incluyen, por ejemplo carpetas de trabajo? ^Quien hace las 
selecciones — el maestro o los opciones de respuesta? iQu6 incluyen, por 
ejemplo, las carpetas de trabajo? iQui^n hace la seleccidn, el maestro, los 
alumnos, o ambos? 

■ iQu6 material/equipo/fuentes tendr^ los alumnos a su disposicidn? ^Hay 
algunas especificaciones? 

■ instrucciones se da a los alumnos? 

■ restricciones administrativas hay? ^Cudnto tiempo tienen los 
alumnos? ^Cudl es el orden de la tarea? ^C6mo se responder^ a las 
preguntas de los alumnos? iQu6 tipo de ajmda se permitir4? 

■ iQu6 baremo y procedimiento de puntuacidn se va a seguir? 

La ilustracidn 4.2 nos proporciona un ejemplo de plantilla para la descripcidn de 
la tarea. La lista de control resume tanto los asuntos mds importantes relacionados 
con la creacidn de las tareas de evaluacidn como los asuntos de puntuacion que hay 
que establecer y que trataremos en el capftulo cinco. 



Asegurar que las tareas conducen a evaluaciones fiables 

Dada la complejidad del desarrollo de una tarea, habrd que revisar las tareas antes 
de llevarlas a cabo con los alumnos. Estos criterios pueden ayudar a formar una 
crftica sobre las ideas de evaluacidn antes de desarrollarlas completamente: 

■ ^Se ajustan las tareas a los objetivos importantes que se ban establecido 
para los alumnos? ^Reflejan estos objetivos destrezas complejas de 
razonamiento, como el andlisis y la sfntesis? 

■ ^Constituyen un tipo de problema perdurable — los tipos de problemas y 
situaciones a los que los alumnos probablemente tengan que enfrentarse 
una y otra vez en la escuela y en el futuro? 

■ iSon las tareas justas y objetivas? Por ejemplo, ^favorecen a los chicos o a 
las chicas, a los alumnos que ban vivido en una regidn o lugar en particular, 
a los alumnos que tienen una herencia cultural particular, o aqu611os a 
quienes sus padres tienen los medios para comprar determinado material? 

■ ^Tendr^ cr^to las tareas para los sectores importantes? ^Serdn vistas 
como significativas y desafiantes por parte de alumnos, padres y maestros? 
^Dependen las tareas de un contenido curricular de calidad? 

■ ^Ser^ las tareas lo suficientemente significativas y atractivas como para 
que los alumnos se sientan motivados a mostrar sus capacidades? 
^Incluyen las tareas problemas, situaciones y piiblicos reales? 
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llustracion 4.2 

Lista de control para la description de la tarea 



Objetivos que se han de evaluar 


• Descripcion de objetivos 
didacticos 

• Contenido/temas pertinentes 

• Reglas/Proceso de seleccion 


Proceso de administracion de la 
evaluacion 


• Roles individuales/de grupo 

• Materiales/equipo 

• Instrucclones de la administracion 

• Ayuda permitida 

• Tiempo permitido 


Pregunta/problema/estfmulo reales 


• Formato 

• Publico 

• Opciones disponibles 

• Instrucciones para alumnos 


Puntuacion 


• Rubrica 

• Procedimientos de puntuacion 

• Utilizacion de las calificaciones 



■ ^Tienen las tareas relacion con la ensenanza o se pueden siquiera ensenar? 
^Representan las tareas las destrezas y conocimientos que los alumnos 
pueden adquirir y de los que se tiene el material y la pericia adecuada para 
ensenarlos? 

■ iSon viables las tareas para llevarse a cabo en la clase o en la escuela en 
terminos de espacio, equipo, tiempo, dinero, etcetera? ^Pueden los 
alumnos llevarlas a cabo junto con sus obligaciones extraescolares, que 
incluye a la familia y otras cosas que requieren de tiempo, su acceso a 
bibliotecas y otras fuentes, y asequibilidad. 

Estos criterios se ban derivado de los criterios mas generales de CRESST para 
asesorar la calidad de la evaluacidn (Linn et al. 1991). Consultaries ayuda a asegurar 
que las evaluaciones den lugar a inferencias v^idas sobre los alunmos y los 
programas. 
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Establecer criterios 



Los criterios que se utilizan para evaluar el rendimiento del alumno constituyen la 
base de la evaluacidn altemativa. Aunque hemos analizado la seleccidn y la 
descripcidn de las tareas de evaluacidn por un lado, y el establecimiento de los 
criterios de calificacidn por otro, es necesario tener en cuenta que estos tres 
aspectos de la evaluacidn est4n fntimamente relacionados. En ausencia de criterios, 
las tareas de evaluacidn son simplemente eso, tareas o actividades educativas. 
Quizd lo mas importante es que los criterios de calificacidn hacen publico aquello 
que se est4 evaluando y, en muchos casos, los pardmetros de un rendimiento 
satisfactorio. Por consiguiente, los criterios comunican los objetivos y los niveles 
que se ban de alcanzar. 

A1 igual que la propia “evaluacidn altemativa”, tambi4n los criterios para 
evaluar el rendimiento del alumno ban recibido varios nombres, entre ell os 
criterios de calificacidn, directrices para la calificacidn, nibricas y nibricas de 
calificacidn. Para nuestro propdsito, entendemos todos estos terminos como una 
descripcion de las dimensiones que se utilizan para evaluar el rendimiento del 
alumno, un baremo de valores para calificar esas dimensiones y, cuando sea 
apropiado, los est^ndares prefijados en la evaluacidn del rendimiento. 

Tomemos un ejemplo comiin de las ciencias sociales. Se pide a los alumnos que 
bagan una presentacidn en gmpo y que individualmente redacten informes para 
evaluar su nivel de comprensidn de bistoria. Puesto que se pretende evaluar tres 
destrezas— destrezas orales, escritas y de trabajo en gmpo en relacidn con la 
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historia — ^hay que tener en cuenta criterios de calificacidn para cada destreza. El 
cuadro 5.1 en las pdginas 46-47 muestra ejemplos de criterios de calificacidn para 
sdlo una de estas destrezas, una evaluacidn de un trabajo de historia hecho en gmpo 
disehado por el Programa de Evaluacidn de California (California Assessment 
Program).^ 

El ejercicio de procesar informacidn en gmpo explota cuatro objetivos de 
aprendizaje: el aprendizaje en gmpo, el razonamiento critico, la comimicacidn y 
los conocimientos de historia. Para cada objetivo se especifican las dimensiones de 
calificacidn y los niveles de rendimiento que se diferencian en un baremo de 
valor acion. Finalmente, la guia de calificacidn incluye una evaluacidn de cada 
nivel de rendimiento, que describe el rendimiento no sdlo en t^rminos de logros, 
sino tambi^n en el 6xito de 6stos, en ima escala que va de insuficiente a 
sobresaliente. 



Entender la necesidad de los criterios 

Los criterios son necesarios porque nos ayudan a valorar de manera fiable, justa y 
v41ida el complejo rendimiento humano. Los criterios de calificacidn gufan las 
valoraciones y hacen publico las bases de estas valoraciones para los alumnos, 
padres y otros. Calificar un examen tipo test no requiere de una valoracidn 
complicada; sin embargo, el juicio humano sigue siendo un factor importante ya 
que el responsable de disehar el examen formula las preguntas y decide lo que 
constituye las mejores respuestas. Para la persona que corrige el examen, un 
alumno selecciona o no la respuesta correcta; no se necesita juicio alguno. Cuando 
utilizamos exdmenes con respuestas que se han de seleccionar, realmente estamos 
corroborando juicios sobre lo que se considera un rendimiento apto que estdn 
implicados en la clave de respuestas. Por consiguiente toda evaluacidn, ya sea por 
medio de exdmenes donde se tiene que seleccionar o formular respuestas, contiene 
un elemento subjetivo o de juicio humano. 

Las evaluaciones altemativas invitan a elegir entre una gama mds amplia de 
posibles respuestas. En lugar de calificar las respuestas como bien o mal, las 
evaluaciones altemativas valoran la capacidad de llegar a una respuesta compleja 
y a veces hasta el proceso para llegar a ella. Para hacer tales valoraciones y para 
asegurar su validez, constancia e imparcialidad, necesitamos criterios o baremos de 
valoracidn. Los criterios de calificacidn han de ser bien concebidos, definidos de 
forma explfcita y aplicados de forma constante. Los criterios bien especificados 
contribuyen a asegurar que todo el mundo entienda lo que se estd pidiendo. 

Los criterios bien articulados y piiblicos que se utilizan para valorar las 
respuestas de los alumnos son tan necesarios como utiles ya sea para utilizar los 



^Muchos de los ejemplos utilizados en este libro provienen de programas de evaluacidn 
estatales, especialmente aquellos realizados en California. Debido a su trabajo pionero en el diseno 
de marcos curriculares que reflejan actuates teorlas de aprendizaje y currfculo, ciertos estados ya han 
probado prototipos prometedores para una evaluacidn altemativa que se pueden adapter al aula. 
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resultados en el aula o para tomar decisiones a nivel centro o nacional. En todas 
estas situaciones de evaluacidn los criterios de calificacidn deben: 

■ Ayudar al maestro a definir im rendimiento sobresaliente y a planificar 
c6mo ayudar a los alumnos a conseguirlo. 

■ Hacer saber a los alumnos lo que constituye im rendimiento sobresaliente 
y c6mo evaluar sus propios trabajos. 

■ Comunicar a padres y otros curies son los objetivos y resultados. 

■ Ayudar a maestros y a otros calificadores a ser precisos, objetivos y 
constantes a la bora de calificar. 

■ Documentar los procedimientos utilizados al formular juicios importantes 
sobre alumnos. 



Los criterios y la planificacion docente 

Los criterios de calificacidn aclaran los objetivos diddcticos. Jimto con la 
descripcidn de la tarea, los criterios definen los objetivos prioritarios en t^rminos 
de contenidos que se ha de cubrir, conocimientos o destrezas que se ha de 
demostrar y contexto en el que van a surgir. Las especificaciones completas de 
evaluacidn altemativa pueden guiar la seleccidn y la secuencia de las actividades 
diddcticas relevantes. 



Los criterios y los alumnos 

Los criterios para las evaluaciones altemativas se hacen frecuentemente publicos 
para poder tratarse con los alumnos. Estas discusiones publicas ayudan a los 
alumnos a asimilar los criterios y “reglas” que necesitan para conseguir autonomfa 
en sus estudios. Las evaluaciones altemativas y sus criterios pueden intercalarse 
dentro del mismo curriculo de mcinera que sean claros para los alumnos y se 
perciban como una parte natural del proceso de aprendizaje. Tal evaluacidn es 
continua y cobra muchas formas — diarios, tutorfas, clases de atencion especial con 
maestros u otros alumnos, criticas de productos y exposiciones, y evaluaciones 
formales de trabajos individuedes o de im cuerpo de trabajo. Los ejemplos de lo que 
constituye un buen trabajo edientan a los alumnos en el trabajo mismo y en las 
valoraciones de sus trabajos. El tratar piiblicamente los temas de cedi dad y criterios 
prepara a los alumnos durante el periodo formativo de ensenanza, no simplemente 
al final de una uni dad o curso, cuando ya es demasiado tarde para llevar a cabo 
mejoras. Adem^, el tratar los criterios tambi^n ayuda a los edumnos a ver las 
perspectivas de sus maestros, de sus companeros y, edgunas veces, incluso de los 
expertos en el campo. 
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Los criterios y la partidpadon de los padres 

Los criterios articulados de forma clara tambi^n comimican a los padres y a otros 
aquello que los maestros y los centros pretenden lograr. Los criterios llevan a la 
prdctica los objetivos de aprendizaje y las expectativas que se tiene de los ninos. 
Cuando los padres saben antes de que los maestros califiquen a sus hijos lo que se 
espera de ellos, pueden ayudar en su aprendizaje. For ejemplo, al proporcionar a 
los padres o educadores de centros preescolares una copia del “Perfil de Objetivos 
del Desarrollo en los Centros Preescolares -(Cuadro 5.2)” (“Profile of Developmental 
Outcomes for Kindergarten”) se les permite trabajar en casa con sus hijos en 
actividades como son reconocer las primeras letras de las palabras o palabras fdciles 
de reconocer visualmente. El camino hacia la alfabetizacidn estd bien senalado; los 
maestros que comparten el recorrido con los padres veran que muchos de sus 
alumnos alcanzan su destino mds rdpidamente. 

Los buenos criterios ayudan tanto a alumnos como a padres a compartir un 
segmento de la responsabilidad del aprendizaje. Hay menos probabilidad de que 
los padres y los ninos que estan familiarizados con los criterios que se utilizan para 
valorar el trabajo atribuyan el rendimiento insuficiente a factores extemos como el 
no estar informados o a conflictos de personalidad entre maestros y alumnos. 



Los criterios y la constancia 

Cuando las directrices sobre lo que constituye un buen trabajo son vagas o no ban 
sido establecidas, es dificil ser constante, justo y preciso a la bora de valorar las 
respuestas de los alumnos. En exdmenes con respuestas a elegir, la precisidn y la 
constancia en la calificacidn hacen referenda a si la nota de un determinado 
alumno se mantiene estable entre un examen y otro, en ausencia de ensenanza o 
desarrollo durante este periodo intermedio. Esta constancia se conoce mejor como 
fiabilidad. Para las evaluaciones altemativas, la fiabilidad no s61o incluye la idea de 
estabilidad de un determinado alumno a lo largo del tiempo, sino tambien la 
fiabilidad de las calificaciones del calificador de ese rendimiento. Para ser mds 
especificos, una evaluacion fiable que depende del juicio humano debe reunir los 
siguientes requisitos: 

■ Varios evaluadores que observasen una tarea especffica deben llegar a la 
misma conclusion sobre un alumno. 

■ Cada evaluador calificaria el rendimiento del alumno en una tarea 
determinada de igual manera en exdmenes consecutivos. 

■ El alumno llevaria a cabo la tarea de igual forma en distintas ocasiones. 

■ Si se pretende que la tarea represente o generalice alguna drea superior, la 
muestra debe ser representative de esa drea. 
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Cuadro 5.2 

Perfil de objetivos del desarrollo de las destrezas de capacidad de 
lectura y de calculo en los centres preescolares 
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Es evidente que estos cuatro requisites para una calificacidn fiable exigen un 
mecanismo para crear el acuerdo entre los calificadores y para delimitar claramente 
las dreas de determinadas tareas de evaluacidn. Los criterios de evaluacidn deben 
responder a esta exigencia. 



Los criterios y las consecuencias 

Es siempre importante especificar los criterios y lo es aun mas cuando las 
consecuencias de una evaluacidn son determinantes, por ejemplo, cuando las 
calificaciones pueden significar la repeticidn de un curso, o la graduacidn de un 
alumno, o la previsidn de programas de atencidn especial. Unas directrices claras 
para evaluar el trabajo de un alumno aseguran consecuencias apropiadas para los 
alumnos y para el sistema educative en conjunto. Ademas, cuando las evaluaciones 
altemativas se utilizan para estas decisiones determinantes, los procedimientos de 
calificacidn y los criterios deben poder defenderse ante un tribunal y deberan estar 
de conform! dad con los procedimientos de dicho tribunal. 



Especificar los criterios 

Las distintas finalidades de los exdmenes requieren distintos tipos de criterios de 
calificacion. Muchos de los ejemplos de este libro fueron disenados para 
evaluaciones a nivel estatal que conllevaban objetivos evaluadores trascendentales 
como la comparacidn de distintos centres, la identificacion de centres que no 
funcionan al debido nivel y la evaluacidn de un centre determinado. Los criterios 
de un trabajo en grupo de la asignatura de historia (v6ase cuadro 5.1) del “Programa 
de Evaluacidn de California” (CAP — California Assesment Program) son un 
ejemplo de los complejos criterios utilizados en evaluaciones determinantes. 
Puesto que los criterios se utilizan en una evaluacidn final a nivel estatal, las 
directrices de calificacidn fueron desarrolladas para extraer la m^ima informacidn 
posible durante el tiempo limitado de la evaluacidn. Podemos observar que los 
criterios: 

■ Enumeran multiples objetivos de aprendizaje. 

■ Dividen cada objetivo en niveles de rendimiento. 

■ Describen rasgos/caracterfsticas para cada nivel. 

■ Proporcionan una escala numdrica para calificar el grado de alcance para 
cada nivel. 

■ Evaluan la calidad del rendimiento del alumno representado por los 
distintos niveles, utilizando descripciones como “insuficiente” o 
“sobresaliente”. 

Los criterios serdn menos complejos cuando los objetivos de evaluacidn sean mds 
centrados y las decisiones que se quieren tomar acerca de los alumnos sean 
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limitadas. Si se estd utilizando diarios academicos de los almnnos para controlar y 
supervisar su progreso sobre como relacionar lo que aprenden en ciencias naturales 
con la vida real, los criterios de calificacidn podrian consistir en contar el nurnero 
de frases espontaneas que relaciona el aprendizaje en el aula con la experiencia 
fuera del aula. El nurnero de relaciones que se encuentren indicara si se estan 
alcanzando los objetivos. La final! dad de la evaluacidn en este caso puede ser 
formativa — ^para mejorar la ensenanza y para identificar a aquellos alimmos que 
necesitan mas ayuda o un tratamiento distinto. 

Quizes la finalidad de la evaluacidn sea mds tradicional — por ejemplo, se 
quiere evaluar el progreso del aliunno con referenda a los objetivos de resolucidn 
de problemas matemdticos. Los criterios de calificacion podrfan imitar la nibrica 
generalizada disenada por el CAP para problemas matemdticos que requieren una 
redaccidn desarrollada (vdase cuadro 5.3). Los criterios proporcionan descripciones 
de cada nivel del rendimiento en tdrminos de lo que los aliunnos sean capaces de 
hacer, atribuyen valores para estos niveles, despuds aplican parametros en 
determinados puntos para distinguir los distintos niveles. Los aliunnos que reciben 
una calificacidn entre 1-2 son aquellos que ban tenido una respuesta “inadecuada”; 
los alumnos que reciben entre 3-4 se consideran “aptos”; y a los aliunnos que 
reciben entre 5-6 se les considera “competentes”. 

Aunque la calificacion es un tema complejo y la calificacidn de cualquier 
evaluacidn altemativa puede o no utilizarse para decidir las notas finales, es posible 
encontrar o establecer. criterios relacionados con notas que corresponden a 
determinadas letras. Gracias a un subsidio de la National Science Foundation, los 
investigadores ban formulado un conjunto de criterios que corresponden a letras 
para evaluar los conocimientos de alumnos sobre los procedimientos cientificos en 
un experimento cientifico prdctico (Baxter et al. 1992). Los investigadores 
establecieron cudles eran los metodos que los alumnos podrian utilizar para 
resolver el problema planteado en el experimento y juzgaron cudl de ellos 
produciria las soluciones mas Idgicas y eficaces. Luego establecieron criterios con 
referencias alfabeticas para reflejar sus valoraciones de las soluciones. Un resumen 
de sus criterios utilizando letras se describe en el cuadro 5.4. 

Sin tomar en cuenta la finalidad de la evaluacidn, los criterios que se describen 
tienen cuatro caracteristicas en comiin. Cada uno tiene: 

■ Uno o mds rasgos o dimensiones que constituyen la base de la valoracidn 
de la respuesta del alumno. 

■ Definiciones y ejemplos para aclarar lo que significa cada rasgo o 
dimensidn. 

■ Un baremo de valores (o un sistema niundrico) que se sigue para calificar 
cada dimensidn. 

■ Estdndares iddneos para determinados niveles de rendimiento 
acompanados por modelos o ejemplos de cada nivel. 
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Cuadro 5.3 

Rubrica generalizada del CAP 

(Departamento de Educaclon del Estado de California 1989) 



Competencia Demostrada 
Respuesta ejemplar...Caiificad6n = 6 

Da una respuesta completa con una explicacion clara, coherente, sin 
ambigiiedades y elegante; incluye un diagrama claro y simplificado; se comunica 
eficazmente con su publico; demuestra entender las ideas y los procesos del 
problema matematico de solucion abierta; identifica todos los elementos 
importantes del problema; posiblemente incluya ejemplos y contraejemplos; 
presenta fuertes argumentos respaldatorios. 

Respuesta competente...Calificaci6n = 5 

Da una respuesta bastante completa con explicaciones razonablemente claras; 
posiblemente incluya un diagrama apropiado; se comunica eficazmente con su 
publico; demuestra entender las ideas y procesos matematicos del problema; 
identifica los elementos mas importantes de los problemas; presenta solidos 
argumentos respaldatorios. 

Respuesta Satisfactoria 

Pequenos fallos aunque satisfactoria...Calificaci6n = 4 

Termina el problema de forma satisfactoria, aunque la explicacion puede ser 
confusa; los argumentos pueden aparecer incompletos; el diagrama puede ser 
inapropiado o no estar muy claro; entiende la ideas matematicas subyacentes; 
utiliza ideas matematicas con eficacia. 

Fallos serios aunque casi satisfactoria...Calificaci6n = 3 

Empieza correctamente el problema pero puede terminarlo mal u omitir partes 
importantes del problema; puede fallar en la comprension completa de las ideas y 
de los procesos matematicos; posiblemente cometa importantes errores de 
computacion; posiblemente utilice mal o no utilice terminos matematicos; la 
respuesta puede reflejar una estrategia inapropiada para la resolucion del problema. 

Respuesta insuficiente 

Empieza pero no termina el problema...Calificaci6n = 2 

La explicacion no se entiende; el diagrama podrfa no estar muy claro; demuestra no 
entender el problema; posiblemente cometa importantes errores de computacion. 

Incapaz de abordar el problema eficazmente...Calificaci6n = 1 

Lo que escribe no refleja el problema; los dibujos representan mal el problema; 
copia partes del problema sin tratar de resolverlo; no indica cual es la informacion 
apropiada para el problema. 

No lo intenta...Calificaci6n = 0 
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Cuadro 5.4 

Relacion criterios-notas 


Nota 

A 


Criterios para determinar las notas 

El alumno selecciona el metodo. 

El alumno empapa las toallas. 

El alumno comprueba el resultado para contestar la pregunta. 

El resultado logicamente corresponde al metodo utilizado para empapar 
la toalla. 

Las medidas se toman con precision/cuidado. 

Las conclusiones son correctas. 


B 


Cumple todos los requisitos del "A" excepto que las medidas no se 
toman con cuidado. 


C 


Cumple todos los requisitos del "A" aunque comete algunas 
equivocaciones. 

Debe intentar controlar el proceso de empapar poniendo la misma 
cantidad de agua en cada toalla. 

Las toallas no estan empapadas (la dimension clave para decidir otorgar 
una "C" u otra inferior). 


D 


El alumno no empapa las toallas ni la toalla de control. 

El resultado es logicamente falto de uniformidad debido al metodo 
utilizado para empapar las toallas. 


F 


El alumno no llevo a cabo la investigacion 
O el equipo se utilize sin ningun proposito 
O las toallas no estaban mojadas 

O las conclusiones se basaron en el cambio que sufrieron las toallas. 


* Criterios abrevlados de Baxter et al. (1 992, p. 5). 



Consideraciones al selecionar las dimensiones 

Las dimensiones que se utilicen para evaluar el rendimiento de im alumno en ima 
determinada ^ea deben reflejar las cualidades esenciales de im buen rendimiento 
en esa drea. ^D6nde se encuentran estas cualidades esenciales? Las cualidades o 
dimensiones pueden marcarlas expertos fuera del campo de la educacidn, colegas 
del mismo departamento, maestros de distintos cursos, comit^s de programas de 
estudio a nivel distrito, articulos de investigacidn, o comit^s de est^dares de 
distintas asignaturas de la localidad. Si lo que se quiere es establecer criterios para 
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la propia aula, 6stos se deben centrar en aquellos aspectos del rendimiento del 
alumno que reflejan los objetivos diddcticos de mayor prioridad y que representan 
aspectos del rendimiento que se pueden ensenar y observar. 

A1 formularse el siguiente tipo de preguntas, se puede descubrir dimensiones 
para crear criterios de evaluacidn: 

■ ^Cudles son los atributos de una buena redaccidn, de un buen 
razonamiento cientifico, de un buen proceso colaborativo, de una 
presentacidn oral acertada? ^En general, que cualidades o rasgos me 
indicardn si los alumnos ban respondido de forma dptima a la tarea de 
evaluacidn? 

■ ^Cdmo se relaciona la realizacidn de esta tarea con los objetivos 
establecidos para los alumnos? iQu6 hardn para demostrar que se estd 
alcanzando o logrando alguno de estos objetivos? 

■ iQud se espera ver si se realize esta tarea de manera optima, aceptable, 
insuficiente? 

■ ^Se dispone de ejemplos o modelos de trabajos de alumnos, de la misma 
clase o de otras fiientes, que ejemplifiquen algunos de los criterios que se 
podrian emplear cuando se evaliie esa tarea? 

■ iQue criterios existen para esta tarea u otras parecidas en las directrices de 
programas de estudio estatales, en el programa de evaluacion del estado, en 
las guias de programas de estudio del distrito o en el programa de 
evaluacidn del centre? 

■ iQu6 dimensiones se pueden adapter del trabajo que realizaron los 
consejos nacionales de programas de estudio, u otros maestros? 

Ademas de describir la valoraciones que hacemos sobre el rendimiento, hay que 
describir las dimensiones que se van utilizer para los criterios de tal forma que 
todos aquellos que las van a utilizer las entiendan de igual manera. Quiz^ se desea 
evaluar un proyecto de arte interdisciplinario. For ejemplo, disenado donde se 
refleje una interpretaci6n-n desde el pimto de vista de las ciencias social es-n 
de la relacidn entre los pueblos indigenes americanos y su medio ambiente. Los 
criterios para calificar o evaluar niveles de rendimiento deben ser claros tanto para 
los alumnos como para los padres. Tambi6n deben ser claros para otros maestros 
que dependen de estas valoraciones sobre el dominio del contenido, ya sea otros 
maestros que dicten el mismo curso o que lo dictardn en un futuro. 

Hay varies maneras de llegar a descripciones claras sobre las dimensiones del 
rendimiento: 

1. Se puede escribir definiciones referentes a las conductas o elementos que 
se verdn a la hora de evaluar a los alumnos. For ejemplo, en lugar de decir 
“Un rendimiento aceptable significa que los alumnos demuestran 
entender la idea de vivir en armonia con la tierra*’ se podria decir “Un 
rendimiento aceptable significa que los dibujos del alumno muestran im 
medio ambiente que apenas ha cambiado desde sus origenes. Focos 
drboles han sido talados; la pradera se encuentra Intacta con la excepcidn 
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de pequenas parcelas que han sido cultivadas; no existen grandes 
vertederos, etcetera”. 

2. Se puede proporcionar modelos o ejemplos para cada dimension. Esto se 
suele hacer en evaluaciones directas de la expresion escrita. Se da a los 
maestxos copias de redacciones de alumnos que ejemplifican cada punto 
en la distribucidn de la calificacion. Las redacciones ilustran dimensiones 
como: “la redaccidn estd bien estructurada; comienza y termina bien”. 
Con estos modelos, los maestros y otros pueden llegar a articular 
definiciones precisas para cada dimension. 

3. Si la evaluacidn es informal, se puede definir las dimensiones con un 
conjunto de preguntas. For ejemplo, al evaluar diarios para determinar el 
tipo de ayuda que necesitan los alumnos para adquirir la soltura en la 
expresidn escrita, los criterios para decidir en que debemos trabajar a 
continuacidn pueden incluir las siguientes preguntas: ^Cu^es alumnos 
est^ utilizando estrategias previas a la redaccion como son agrupar ideas, 
dibujar, hacer listas, o apuntar ideas sueltas? ^Cudles alumnos estdn 
llevando un diario de ideas para futuras redacciones? ^Cu^es alumnos 
tienen problemas ortogrdficos que bloquean el flujo de ideas? 

Las definiciones de calificaciones que no sufren ambigiiedades normalmente 
consisten en una descripcion de las dimensiones que se han de evaluar, junto con 
modelos de trabajos de alumnos que muestran respuestas aceptables. Estos 
modelos o ejemplos de trabajos son crucial es cuando se desea llegar a un consenso 
sobre el significado de los criterios cuando se utilizan en la formacidn de 
calificadores para evaluaciones formales. Los modelos tambien proporcionan a los 
alumnos ejemplos concretos de lo que es un trabajo aceptable o excelente. El 
cuadro 5.5 muestra una de las muchas dimensiones de una nibrica de calificacion 
desarrollada por el CRESST para evaluar la redacciones de los alumnos de 
ensenanza secundaria para determinar el grado de comprensidn de la asignatura de 
historia. Vease que las dimensiones y las calificaciones son totalmente practices: se 
define palabras clave como “concepto” y se proporciona ejemplos de elementos 
b^icos, como afirmaciones de opinidn. 

En la mayorfa de los casos, las dimensiones de rendimiento, en particular 
aquellas para la evaluacidn en el aula, reflejardn nuestras opiniones de lo que 
constituye la excelencia o dominio y se verdn moderadas por nuestras expectativas 
acerca de los alumnos de distintos cursos y por nuestros objetivos didacticos en 
distintas dp ocas del curso escolar. Puesto que los criterios ayudan a los alumnos a 
concentrarse en lo que es importante desde el punto de vista acaddmico, se puede 
utilizer distintos criterios en distintos momentos del curso escolar. Por ejemplo, 
aunque se considera que la oiganizacidn y los mecanismos son aspectos 
importantes en la expresidn de conocimientos con relacidn a las disciplines de 
ciencias o historia, quizd al comienzo del curso escolar se pueda hacer hincapie en 
la soltura. Por consiguiente, los criterios al comienzo del semestre pondrdn enfasis 
en el numero de ideas presentadas, el niimero de ejemplos o definiciones para cada 
idea, etcdtera. Cuando los alumnos adquieran mayor soltura y seen capaces de 
respaldar sus opiniones, se puede ampliar los criterios para incluir la oiganizacidn 
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Cuadro 5.5 

Explicacion deS area de contenido CRESST 
Directrices de calificacion de redaccion 

(Baker, Aschbacher, Niemi y Sato 1992) 



Rubrica de Calificacidn CRESST: 

Impresion general — calidad de contenido 

Numero de principios o conceptos 

Conocimientos prevlos: hechos y acontecimientos 

Argumentacion 

Ideas equivocadas 

Detalles textuales 

Ejemplos de directrices para la Escala Numero de Principios o Conceptos: 



Esta es una valoracion del numero de distintos conceptos o principios de ciencias sociales 
que utiliza el alum no demostrando que los entiende. 

Un concepto es una nocion general abstracta, como lo es la "inflacion". No se refiere a 
objetos o a acontecimientos determinados (como un periodo de inflacion particular), si no 
que representa rasgos cornu nes de una categoria de acontecimientos u objetos. El 
"imperialismo", por ejemplo, no se refiere a hechos o acontecimientos especificos si no que 
es un nombre que define una clase de conductas y creencias. De igual manera, la 
"industrial izacion" identifica una clase de actividades y acontecimientos que comparten 
propiedades cornu nes. Hay que asegurarse de que el alumno este utilizando un term i no de 
forma conceptual y no simplemente como etiqueta. 

Un principio es una regia o creencia que se utiliza para justificar una accion o juicio, 
como en el enunciado "La esclavitud es inmoral", donde la "moralidad" sirve como un 
principio que justifica. 

Debe quedar claro que el alumno entienda el concepto y que sea su intencion discutirlo. 
El concepto no deberfa simplemente mencionarse dentro de una cita del texto sin ninguna 
indicacion de que el alumno lo entiende. F^ra ganar puntos, no hay que nombrar de forma 
explicita el concepto o principio como en la frase ^'La constitucionalidad era un principio 
importante que influyo en el debate sobre la esclavitud", sino que hay que enunciar la idea 
claramente, por ejemplo, "Un problema era determ inar lo que decia la constitucion acerca 
de la esclavitud". 

Directrices de calificacion: 

0 — no responde 

1 — ningun concepto/principio 

2 — un concepto/principio 

3 — dos conceptos/principios 

A — tres conceptos/principios 

5 — cuatro o mas conceptos/principios 

Ejemplo: "Un factor importante que impidio que fueramos a la guerra fue nuestra 
economia. No se sabia lo que ocurriria con nuestra economia sin la seguridad que nos daba 
Gran Bretaha. Gran Bretaha podia defender nuestro comercio y costas. Ademas, con Gran 
Bretaha teniamos la ventaja de la exportacion. F^recia que nuestra economia solo iba a sufrir 
si prescind famos de la ayuda de Gran Bretaha". 



Numero de principios/conceptos 
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y los mecanismos de la escritura. Tomando un ejemplo del patinaje artistico, es 
posible que creamos tanto en los criterios olunpicos de “m^rito tecnico” como en 
los de ‘^expresidn artistica”, pero en distintas fases de la ensenanza habrd que 
cambiar el 6nfasis de uno a otro. 



Dimensiones para tareas complejas 

Como ya establecimos en el capitulo 4, es perfectamente posible crear una 
evaluacidn compleja con multiples finalidades distintas . A1 tener muchas 
finalidades, se requiere de muchos criterios, im conjimto para cada finalidad. No se 
puede evitar los criterios multidimensionales cuando se est4 Uevando a cabo una 
evaluacidn interdisciplinaria o cuando estamos evaluando objetivos de aprendizaje 
complejos. Se puede formular criterios independientes para cada una de las 
finalidades, o bien, formular un conjunto multidimensional de criterios. La 
evaluacidn del estado de Connecticut para las ciencias utilize un enfoque bipartita 
para evaluar la misma tarea al proporcionar criterios que evaluan el proceso en 
grupo y el logro individual (v6ase cuadros 5.6 y 5.7). Otra perspective sobre el 
rendimiento del alumno la proporcionan las subdestrezas dentro de las 
evaluaciones individuales y de grupo, Al valorar las destrezas de proceso en grupo, 
estamos interesados en el proceso cientifico, la comunicacidn y la colaboracidn en 
grupo. Hay criterios independientes para cada una de estas destrezas. Las 
dimensiones multiples en la escala individual incluyen finalidades de contenido y 
de comunicacidn. 

Las dimensiones para cada escala requieren de mucha inferencia. Tanto 
maestros como alumnos necesitarfan mds descripciones de dimensiones como 
“sacar conclusiones razonables” o “colaborar con eficacia” para poder utilizar los 
baremos. De hecho, estos baremos se utilizan en el aula s61o despuds de que los 
maestros hayan recibido una formacidn interna para tratar el significado de las 
dimensiones, de los ejemplos y para poder practicar utilizando los criterios. 
Cuando se ventila en el aula estos temas y se presentan los ejemplos, los alumnos 
y maestros llegan a comprender mutuamente las dimensiones del baremo 
individual. 

Un ejemplo menos complejo de los criterios multidimensionales se encuentra 
en el cuadro 5.1. Los criterios evaluan cuatro objetivos del rendimiento en grupo: 
la colaboracidn, el razonamiento critico, la comunicacidn y los conocimientos de 
historia. Los criterios incluyen subcriterios para decidir en cudl de los cinco niveles 
de rendimiento debemos colocar a los alumnos segiin cada objetivo. El conjunto 
complete de criterios de trabajo en grupo puede verse como im compendio de 
cuatro conjuntos de criterios: para la colaboracidn, para el razonamiento crftico, 
para la comunicacidn y otro para los conocimientos de historia. 
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Utilizar los baremos de calificacion 

Todos los ejemplos de criterios de calificacidn que se incluyen en este capitulo 
contienen algun tipo de baremo, bien num6rico, cualitativo, o ambos. Los criterios 
en el cuadro 5.1, el trabajo en gnipo de historia y en el cuadro 5.3, el problema de 
matem^ticas, contienen tanto baremos de calificacidn num6ricos como cualitativos. 
El cuadro 5.4, que comprende los criterios cientfficos pr4cticos, y los cuadros 5.6 y 
5.7, del experimento de ciencias en grupo e individual, s61o contienen 
calificaciones cualitativas, como por ejemplo notas en forma de letras o 
valoraciones tales como “sobresaliente” o “necesita mejorar”. 

^Por qu6 se usan los baremos? ^C6mo se sabe si se debe emplear calificaciones 
num6ricas o cualitativas? qu6 tal si empleamos una lista de control en lugar de 
un baremo de calificacidn? Ya se puntue la presencia o ausencia de un rendimiento, 
como en una lista de control, o se utilice mimeros o evaluaciones cualitativas, todo 
depender4 del objetivo de la evaluacidn. Hay tres tipos principales de baremos: 
listas de control, calificacidn numdrica y calificacidn cualitativa (ya sea descrip tiva 
o evaluativa). Si el objetivo es describir lo que pueden hacer los alumnos, por 
ejemplo para reuniones con los padres o para comparar el rendimiento del alumno 
con ciertos estdndares de desarrollo, se puede utilizar el baremo de calificacidn m4s 
simple de todos, la lista de control. Si hace falta m4s informacidn aparte del simple 
hecho de que si un alumno se ocupa de aspectos especificos de una tarea, se 
necesitard un baremo de calificacidn totalmente desarrollado. Si se quiere averiguar 
hasta que punto fueron observadas las dimensiones o la calidad del rendimiento, 
hacen falta baremos mds elaborados. Los baremos de calificacidn, m4s all4 del 
formato del **sf o no” de una lista de control, reflejan distintos aspectos del 
rendimiento del alumno y no simplemente los logros alcanzados en una 
determinada actividad. 



Listas de control 

Una lista de control es una lista de dimensiones, caracteristicas,.o conductas que se 
valoran simplemente con un “si o no”. Un control indica que bien la caracteristica 
o la conducta estaba presente o ausente. Las listas de control contienen muchas 
veces m4s dimensiones para calificar de las que contienen los baremos de 
calificacidn, pero estas dimensiones son frecuentemente limitadas y concretas. 

Las listas de control pueden ser utiles en la valoracidn de procesos, un 
importante objetivo para los maestros que se preocupan por el c6mo ademds del 
por qu6 del aprendizaje. Una lista de control de procesos para un experimento 
pr4ctico podria imitar el cuadro 5.8, que pide al calificador que anote la presencia 
de determinadas conductas. 

Los maestros de educacidn primaria encuentran utiles las listas de control 
porque con frecuencia se emplean para saber c6mo evolucionan los alumnos segun 
alguna teoria de adquisicidn de destrezas. Por ejemplo, la actual teoria de la 
adquisicidn del lenguaje sugiere que el siguiente conjunto de destrezas apoya la 
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habilidad de leer de un nino: 

■ Habilidad de dibujar o representar una idea 

■ Habilidad de reconocer la relacidn entre sonidos y letras 

■ . Habilidad de reconocer que las palabras representan. algo 

■ Conocimiento de la orientacidn de la pagina de izquierda a derecba y de 
arriba a abajo 

■ Habilidad de recorder y repetir sus cuentos preferidos 



Cuadro 5.8 

Lista de control de procesos 


Procedimiento 


Conducta 

observada 


Comentarios 


Eligio un metodo 






Utilizo el materia! adecuado 






Las medidas fueron correctas 






Pidio ayuda-a los companeros 
cuando la necesito 






Anoto observaclones 






Limpid al acabar el experimento 







El maestro puede documentar la adquisicidn de estas destrezas de agilidad mental 
con una lista de control. No es necesario juzgar lo bien que estas conductas se 
demuestran, sino simplemente senalar que existen. El cuadro 5.2 muestra un perfil 
basado en el desarrollo de ninos de educacidn preescolar, creado por maestros del 
Soledad Union School District en California, con alguna colaboracidn del Pacific 
Oaks College en Pasadena, California. Este es un ejemplo de un perfil basado en 
teoria. El proceso del desarrollo del perfil fue disenado para ayudar a los maestros 
a comprender mejor el constructivismo, la teoria del desarrollo del aprendizaje en 
la que se basa este perfil. Las conductas identificadas en el cuadro 5.2 siguen una 
secuencia de izquierda a derecba siguiendo el orden de adquisicidn de las 
conductas que predijeron los maestros del centro ensenanza preescolar, Este 
documento fue disenado para que se vuelva a analizar cada ano conforme los 
maestros yayan observando las conductas de los ninos desde el punto de vista del 
desarrollo. 
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Baremos numericos 

Un baremo numerico utiliza ntaieros o asigna pimtos en im espectro de niveles de 
rendimiento. La extensidn del espectro o el numero de pimtos en el baremo puede 
variar, tres pimtos, cuatro pimtos, cinco pimtos, siete pimtos — cualquier numero es 
posible. iCudntas divisiones o pimtos debiera incluir un buen baremo? Aunque no 
hay una unica respuesta a esta pregunta, la experiencia nos dice que tomemos en 
cuenta estos temas. 

El numero de pimtos o divisiones en un baremo puede y debe variar de acuerdo 
con las decisiones que se tomen con respecto a los alumnos y si el baremo se va a 
utilizar en el aula o en una sesidn formal de calificacion con varios calificadores 
involucrados en la evaluacion del rendimiento. Generalmente, entre mayor es el 
baremo, mAs dihcil serA distinguir claramente entre los pimtos. Consideremos lo 
rapido que resulta clasificar de redacciones en pilas segiin reciban cero pimtos, un 
punto o dos pimtos; esta es esencialmente una decisidn entre bajo, mediano y alto. 
^Por qu6 habria que utilizar un baremo de diez pimtos si realmente s61o queremos 
distinguir entre dos o tres grupos de alumnos, como por ejemplo entre aquellos que 
necesitan ayuda especial para escribir una redaccidn bien estructurada y aquellos 
que no? 

Un baremo con pocos pimtos tambien tiene sus desventajas. Un mayor numero 
de pimtos nos ayuda a identificar pequenas diferencias entre distintos alumnos y 
puede proporcionamos mas informacidn diagndstica que un baremo menor. Por 
ejemplo, puede ser necesario usar un baremo m4s detallado si lo que se desea es 
utilizar un linico baremo para todos los alumnos de K-12 a la vez que se quiere 
diferenciar los alumnos de un s61o curso. Adem4s, si el baremo se va a utilizar para 
fines de evaluacidn formales donde varios lectores van a calificar cada rendimiento, 
cualquier estadfstica que haya que calcular, como es el nivel de acuerdo entre los 
calificadores, se ver4 afectada por el tamano del baremo. La utilizacidn de un 
baremo m4s pequeno dara lugar a un alto porcentaje de acuerdo pero sei4 m4s 
dificil alcanzar una mayor correlacidn entre las calificaciones de los calificadores 
(dos formas distintas de calcular la fiabilidad entre calificadores). * 

Se tarda mas en llegar a un consenso sobre c6mo asignar los pimtos cuando se 
tiene que tener en cuenta un mayor numero de el los. Con un baremo de cinco a seis 
pimtos, los calificadores con frecuencia recurren a experiencias anteriores y 
asignan los puntos m4s bajos a aquellos rendimientos irrelevantes o 
verdaderamente terribles, los mAs altos a aquellos que son brillantes, reservan los 
puntos intermedios para aquellos rendimientos que son '‘aptos”, “aceptables*', o 
model o, para luego calificar a aquellos rendimientos que no se ajustan a las tres 
calificaciones base utilizando los valores de la escala que quedan. Una escala de 
once o diecisiete pimtos hace que sea mas dificil para los calificadores basar sus 
juicios en experiencias anteriores. Sin embargo, se encuentran con firecuencia 
baremos de multiples de cinco, como por ejemplo baremos de diez, quince o veinte 
pimtos, que permiten a los calificadores agrupar los pimtos de cinco en cinco. Las 
distinciones iniciales de calificaciones se hacen entonces entre un cinco y un diez, 
en lugar de entre un cuatro y un siete, con los ejemplos de rendimiento que no se 
ajustan claramente a los incrementos que reciben los pimtos intermedios. 
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Otra consideracion relacionada con el tamano del baremo hace referenda a los 
criterios multidimensionales. Si se califica el mismo rendimiento de acuerdo con 
varios criterios, donde cada uno evalua un objetivo distinto, quizas se quiera 
utilizar el mismo numero de puntos para cada objetivo. Esto no solo logra que sea 
posible que se junten o se puedan comparar los resultados de varios baremos, sino 
que facilita la tarea de calificacidn. For ejemplo, el uso de un baremo de cuatro 
puntos para valorar la coherencia y de otro de cinco puntos para valorar los 
argumentos respaldatorios puede hacer mds lento el proceso de calificacion sea 
mds pues forzard a los calificadores a cambiar mentalmente a un baremo de 
calificacion distinto. Los alumnos al intentar entender sus relativos puntos fuertes 
y ddbiles, tambien pueden encontrar dificultades al comparar distintos baremos. 
Sin embargo, si se quiere que determinados objetivos tengan mas peso que otros en 
el cdmputo total, se puede emplear baremos de distinta extension para reflejar el 
valor o peso relativo. Un buen ejemplo de esta estrategia se muestra en el cuadro 
5.1, la tarea de trabajo en grupo de historia. La guia de calificacidn utiliza dos 
baremos distintos; a un objetivo se le asigna veinte puntos y al otro treinta. 



Baremos cualitativos 

Un baremo cualitativo . utiliza adjetivos en lugar de niimeros para describir el 
rendimiento del alumno. Estos baremos son generalmente de dos tipos, 
descriptivos y evaluativos. Los descriptivos catalogan el rendimiento del alumno 
pero no necesariamente hacen explicitos los estdndares subyacentes de las 
valoraciones hechas; utilizan t^rminos bastante neutrales para describir el 
rendimiento. Entre los descriptores tfpicos tenemos las valoraciones sobre la 
realizacidn de la tarea, la comprensidn de la tarea o la presencia de determinados 
elementos en el rendimiento. El cuadro 5.9 muestra tres baremos descriptivos que 
no evaluan el valor del rendimiento del alumno. 



Cuadro 5.9 
Escalas descriptivas 



Ninguna evldencia...Evidencia mmima...Evidencia parcial...Evidencia total. 

Tarea no reaIi2ada...Reali2adon parciaL..ReaIi2ada...Supera lo esperado. 

Irrelevante a la tarea...lntenta abordar la tarea. ..Atencion mmima en la tarea... 
Se enfrenta a la tarea pero no la lleva a cabo...Llevada a cabo en su total! dad y 
concentrado en la tarea y en el receptor. 



Los baremos evaluadores incorporan juicios de valor basados en los criterios 
subyacentes de lo que se considera excelente. Los baremos evaluadores mAs. 
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comunes son los de letras (v^ase cuadro 5.4). Los baremos que utilizan descriptores 
referentes a im posible rendimiento “sobresaliente” (cuadros 5.1,5.6y5.7)o que 
evaluan la competencia (cuadro 5.3) son evaluadores por naturale 2 :a. Los baremos 
evaluadores requieren de un mayor grado de inferencia que las baremos 
descriptivos para poder interpretarlos. Estas inferencias se hacen teniendo en 
cuenta los criterios de calificacidn. Los mismos criterios llevan consigo nociones de 
rendimiento sobresaliente, competencia o resultados aceptables. 



Baremos numericos-cualitativos 

Los baremos numdricos son normalmente mds fdciles de recorder, de calcular y de 
sacar la media, pero son dificiles de interpreter cuando no tienen buenos 
descriptores. A1 fin y al cabo, sacar un “4” en un baremo de seis puntos puede 
significar niveles o cualidades de logro diferentes para distintas personas. Los 
buenos criterios incluyen normalmente tanto valores numdricos como descriptivos. 
Por ejemplo, el cuadro 5.3 muestra un borrador de un baremo utilizado por el 
California Assessment Program para calificar problemas matemdticos con solucidn 
abierta. Este baremo, como vemos, es tanto numerico como descriptivo. El 
rendimiento se evalua de forma numdrica, pero cada calificacion numdrica se une 
a una valoracidn que va de “insuficiente” a “competente”. 

Ya sean los valores del baremo num^ricos, descriptivos, o ambos, es importante 
asegurar que los baremos ayuden a los padres, alumnos, maestros, personal 
administrativo y coordinadores educativos a comprender de igual manera el 
significado del rendimiento. Esta concordancia en la comprensidn ayuda a 
garantizar la fiabilidad y la objetividad en las evaluaciones. 



La reladorD con los estandares academicos 

Casi todos los criterios, incluso las listas de control descriptivas, se relacionan de 
alguna manera con los estdndares academicos — las expectativas del rendimiento 
del alumno. Las notas o calificaciones cualitativas reflejan el juicio del maestro, o 
en el caso de los criterios pr4cticos de ciencias que aparece en cuadro 5.4, reflejan 
el consenso del equipo calificador. Los criterios subyacentes de baremos distintos 
pueden reflejar bien m^todos de evaluar la calidad referente a criterios o referentes 
a la norma. Los criterios para la asignatura de matematicas (cuadro 5.3) con 
descriptores como “respuesta insuficiente”, “respuesta satisfactoria” y 
“competencia demostrada” reflejan un nivel absolute o un enfasis en el dominio a 
la bora de establecer los -estdndares deseados. Las descriptores indican claramente 
niveles de rendimiento buenos o deseados, “de satisfactorio en adelante", frente a 
niveles m4s pobres, “insuficiente”. Los niveles tienen como referencia los 
estdndares basados en la disciplina, los conceptos de los maestros de matematicas 
sobre lo que constituyen estrategias adecuadas para la resolucidn de problemas. 
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Otro ejemplo lo encontramos en el baremo de seis puntos utilizado para evaluar 
la expresidn escrita en Illinois, que emplea un baremo absoluto y est4 disenado para 
poder utilizarse en distintos cursos escolares. Una calificacion de seis representa un 
nivel muy alto en la expresidn escrita y es de esperar que tan s61o unos pocos 
alumnos de educacidn primaria, si es que llega a haber alguno, superen la 
calificacidn de “3”. Este tipo de baremo es especialmente litil para medir la 
evolucidn conforme pasan los anos. La limitacidn de un baremo absoluto para la 
evaluacidn de varios cursos y edades se debe a que los alumnos de primaria suelen 
sacar las notas m^ bajas del baremo; hay poca variabilidad en sus notas por lo que 
es imposible, a partir de ellas, averiguar mucho sobre ellos de forma individual. 
Todos “se parecen”. 

Otros baremos evaluadores reflejan m^todos que utilizan la norma como 
referente para el establecimiento de los estdndares. Cuando se asignan 
calificaciones o puntos comparando el estatus relative de los alumnos, como por 
ejemplo “la redaccidn de Maria estuvo por encima de la media de la clase”, “el 
video de Gary estuvo entre los me] ores de la clase”, los estdndares utilizan la norma 
como. referente. Las listas de control o baremos del desarrollo demuestran otro uso 
frecuente de los baremos que toman la norma como referente para la evaluacidn 
altemativa. La secuencia de las conductas en estos baremos depende de lo que los 
educadores y otros han ido observando a lo largo del tiempo como rendimiento 
tipico en determinadas edades. Por ejemplo, los ninos que alcanzan la “media” en 
lectura demuestran conductas tipicas de su edad o de su curso. “Por debajo de la 
media” o “evoluciona con lentitud” se refieren al rendimiento tipico de los ninos 
de edad inferior al grupo de aquellos que se estd evaluando. 

Los est^ndares se pueden basar en la informacidn que parte tanto de los 
criterios establecidos como de la norma para una misma evaluacidn. Se empieza 
con un baremo que utilize a los criterios como referente, un baremo que describe el 
rendimiento con relacidn a un conjunto claramente definido de conductas. Luego 
se recopila, o se obtiene por otros medios, los datos sobre cdmo realizaron la misma 
pmeba los alumnos de una muestra representativa a nivel nacional, de estado o 
local. A continuacidn se podrfan formular frases como “Maria escribid una 
redaccidn bien orgamzada y se le dio un “4” en la estructura; su rendimiento fue 
descrito como superior al 75 por ciento de los alumnos del estado”. O a un nivel 
mds informal, en el aula, siempre se puede describir el nivel de rendimiento de un 
determinado alumno compardndole con el resto de la clase: “La nota de Maria la 
coloca entre las mejores de la clase”. 

Algunos baremos pueden parecerse a los baremos de referente absoluto o de 
criterios establecidos aunque en realidad pueden incorporar tanto informacidn 
referente a la norma como a los criterios. Un baremo relacionado con la edad o con 
el curso escolar define el rendimiento del alumno en terminos de los parametros o 
expectativas de un curso determinado. Los parametros para la resolucidn de 
problemas matem^ticos en 5“ ano (“5th grade”) serdn diferentes a los que se 
establezcan para el 7“ ano (“7th grade”). Lo que se considera excel ente en la 
estructura de una redaccidn en el 8° ano (“8th grade”) no lo serd en un llavo ano 
(“11th grade”). Aunque parezcan relacionados con criterios establecidos, los 
baremos ligados a cierta edad o al curriculo de un determinado curso escolar se 



cufA prActica para UNA evaluaci6n alternativa 



pueden interpretar subyacentemente como baremos que utilizan la norma como 
referente. Las propias dimensiones se establecieron a partir de lo que los alumnos 
eran capaces de hacer en determinados cursos y no a partir de estandares absolutes 
de rendimiento de todas las edades y cursos. Por razones prdcticas se considera que 
estos baremos por curso utilizan como referente criterios prefijados porque su 
primer objetivo es decidir lo que los alumnos son capaces de hacer con respecto a 
un contenido y destrezas determinados en lugar de compararlos mutuamente. 

^C6mo se puede conseguir lo mejor de ambos? Determinando los estandares 
apropiados prestando atencidn a los objetivos de la evaluacidn. Para la evaluacidn 
en el aula o en el centre, se elegiria probablemente estandares absolutes. A la hora 
de tomar decisiones para una seleccidn donde hay mds candidates que plazas, 
probablemente se tendrd que utilizer estdndares absolutes para poder optar a ser 
candidate, pero se tendrd que recurrir a est^dares normativos para la seleccidn 
final. Por ejemplo, si se hace una seleccidn de trompetistas para la banda de 
graduacidn, se seleccionard s61o entre el 2% que const! tuye los mejores. 

Aun no se ha hablado de como establecer los estandares. ^C6mo se sabe ddnde 
fijar el nivel aceptable de rendimiento? ^A quidn se considera competente? ^Ddnde 
esta el punto que divide lo que es poco satisfactorio de lo satisfactorio? Las 
evaluaciones trascenden tales, como pueden ser las notas de graduacidn, recurren a 
procedimientos formales para establecer est^dares. Entre estos se puede incluir la 
utilizacion de un tribunal evaluador, al que se le ha proporcionado informacidn de 
referente normativo y de criterios, para definir que requisites se tienen que cumplir 
para ser aprobado. En una evaluacidn a nivel distrito o centra, la calificacidn de 
aprobado o los descriptores para un rendimiento deficiente y sobresaliente se 
determinan por consenso entre aquellos que est4a utilizando la evaluacidn. En el 
aula, los maestros establecen estdn dares basados en sus experiencias, sus 
conocimientos de lo que los alumnos han hecho anteriormente, su familiar! dad con 
las expectativas de alguna disciplina, el rendimiento actual de los alumnos y la 
finalidad de la evaluacidn. 



Considerar otras opciones: 

Criterios integrates o analiticos* 

Basandonos en la experiencia de la evaluacidn de expresidn escrita directa, 
ofrecemos dos opciones mds para especificar criterios: integral o analftico. Los 
criterios integrates requieren que los calificadores asignen una sola calificacidn 
basada en la calidad global o en un sdlo aspecto de la respues ta del alumno. Un 
baremo analitico requiere que los calificadores pongan calificaciones por separado 
para los distintos aspectos del trabajo. Los criterios que incorporan varias 
final! dades son analiticos. 



*Quiz4 el t^rmino "Primary TVait Scoring" (Calificacidn de las Caracteristicas Principales) les 
resulte familiar. Cuando los criterios de las Caracteristicas Principales se concentran en ima sola son 
integrales; cuando hay dos o mds caracteristicas, se convierten en anaUticos. 
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^Cual e$ mejor? 

Llegados a este punto, ya se pueden imaginar lo que vamos a contestar: “depend© 
del objetivo de la evaluacidn’’. La variedad de resultados de un baremo analltico 
proporciona una retroalimentacion litil sobre los puntos fuertes y debiles del 
alumno individual y el programa diddctico de la clase. Desafortunadamente, como 
el rendimiento del alumno en dimensiones distintas de un baremo analftico puede 
relacionarse de formas muy complejas, quizes los resultados no sean tan 
claramente diagndsticos como se deseaba. A pesar de que una de las caracterfsticas 
de un buen baremo analftico, desde una perspectiva de eficacia y medicidn, es que 
cada dimensidn sea distinta, muchas veces las calificaciones de los sub-baremos 
est4n muy interrelacionadas y mal diferenciadas. La investigacidn de CRESST 
sobre los baremos de calificacidn analfticos encontrd altas correlaciones entre las 
calificaciones para la oi^anizacidn global de la redaccidn y de los p^rrafos, y entre 
la calificacidn para la oiganizacidn, los argumentos de apoyo y la competencia 
general. Bajo estas circunstancias, el valor diagnostico del rendimiento de sub- 
baremo se ve enormemente reducido. 

La calificacidn integral es normalmente mas simple y mds rapida que la 
analftica; un asunto important© cuando se tiene en cuenta el tiempo del maestro. A 
menos que el objetivo de la evaluacion no sea el de proporcionar datos para ayudar 
a mejorar el programa, una rdpida impresidn del logro alcanzado podrfa ser 
especialmente apropiado para la evaluacidn del programa, para alumnos que 
necesitan mds ayuda y para asignar las evaluaciones finales. 

La utilizacidn simultdnea de estrategias analfticas e integrales podrfa mejorar 
tanto el valor diagndstico como su eficacia. Un mdtodo que ha suigido a partir de 
las pruebas de competencia minima es el de calificar todas las redacciones de forma 
integral y luego evaluar de forma analftica aquellas redacciones que se puntuaron 
por debajo de la competencia minima. Otra estrategia, utilizada en la evaluacion del 
estado de Maine, es la de calificar las redacciones de forma integral, pero anotando 
las dimensiones analfticas que son particularmente fuertes o ddbiles en el trabajo 
individual como un “comentario” gendrico sobre el rendimiento. 

Las opiniones sobre el valor de estos mdtodos difieren considerablemente y la 
investigacidn continiia. Lo important© no es tanto la denominacidn correcta de 
baremos, sino el hecho de que existen una variedad de metodos que pueden ser 
utiles. 



|Y la evaluacion de carpetas de trabajo? 

La evaluacidn de carpetas de trabajo es normalmente la primera estrategia que nos 
viene a la mente cuando pensamos en evaluaciones altemativas. En algunos 
sentidos, la evaluacidn de carpetas de trabajo se aplica equivocadamente a “la 
evaluacidn de un cuerpo de trabajo”. En otros contextos, la evaluacidn de carpetas 
de trabajo es realmente el sistema de evaluacidn. Las carpetas de trabajo son 
recopilaciones de los trabajos del alumno que se revisan siguiendo unos criterios 

o 
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para valorar a un aluinno en particular o a un programa. La carpeta o recopilaci6n 
de trabajos no constituye la evaluacidn; es simplemente un recipiente de los 
trabajos (redacciones, cintas de video, trabajos artisticos, diarios, etc.) que pueden 
o no ser evaluados. La “evaluacidn” de carpetas solo se da cuando (1) se define una 
finalidad de la evaluacidn; (2) se especifican los criterios o m^todos para decidir 
qu6 se va a incluir en la carpeta, qui6n lo hace y cuando; y (3) se identifican los 
criterios que se van a utilizar para evaluar bien la recopilacidn de trabajos o los 
trabajos individuales. Decidir lo que se deberia incluir es realmente una 
descripcion de la tarea, no un problema de directrices de calificacidn. Lo que se 
incluye, quidn elige, cudndo se recogen las muestras — dstas son dim ensi ones de la 
tarea de evaluacidn que definen el contexto y los tipos de trabajo que se van a 
considerar. [Vdase el capftulo 7 para mds informacidn sobre la evaluacidn de 
carpetas). 

Existen dos temas relacionados con la seleccidn de las dimensiones de los 
criterios de calificacidn para la evaluacidn de carpetas: (1) ^Cudles son los criterios 
que se utilizan para seleccionar las muestras que se incluyen en la carpeta? y (2) 
^cudles son los criterios para evaluar la calidad de las muestras? Antes de 
considerar los criterios para valorar las carpetas, se tendrd que determinar si se 
deberia calificar la carpeta como una entidad o como muestras individuales. En 
segundo lugar, habrd que decidir cudles son las dimensiones que reflejan la 
intencidn u objetivo de la evaluacidn. Cuando se examine un cuerpo de trabajo, 
surgen muchas cuestiones, por ejemplo; 

m iSe va a valorar el progreso o la mejoria? 

a ^Se va a evaluar el progreso y c6mo? 

■ ^C6mo se va a comparer, o dar importancia, a las distintas tareas, videos, 
trabajos artisticos, redacciones, diarios u otros en la evaluacion? 

m ^Cudl es el papel del alumno en la evaluacidn? ^y la aportacidn de los 
padres? 

Una vez que se hayan solucionado estas cuestiones, definir las dimensiones de los 
criterios de calificacidn de carpetas es lo mismo que definir los criterios 
multidimensionales. Quizd el ejemplo mds conocido de los criterios de evaluacidn 
de carpetas es el de la carpeta de matemdticas de Vermont, que se resume en el 
cuadro 5.10, Un cuerpo de trabajos de matemdticas se evalua en dos dimensiones 
principales, la resolucidn de problemas y la habilidad comunicativa. Dentro de 
cada dimensidn, varias subdimensiones definen con mds precisidn cada ima de las 
destrezas super! ores. Se califican las subdestrezas teniendo en cuenta las dos 
dimensiones, resolucidn de problemas y comunicacion. Como se ve, este ejemplo 
de criterios de evaluacidn de carpetas se parece a los ejemplos multi dimensiones 
de los cuadros 5.1 y 5.7. 
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Comentarios: 



Cuadro 5.10 (continuacion) 
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Disenar y evaluar los criterids de evaluacion 



Comienzo del proceso del disefio 

El proceso del disefio de nuestros propios criterios no constituye im problema: 

■ Investigar c6mo define la disciplina eyaluada im rendimiento de calidad. 

■ Recopilar nibricas ejemplares para evaluar la expresion escrita, oral, 
artistica, etc., como modelos que se pueden adapter a los objetivos. 

■ Recopilar muestras de trabajos de alumnos y expertos que reflejen la gama 
de rendimiento que va desde ineficaz a muy eficaz. 

■ Hablar con otros sobre las caracteristicas de estos modelos que distingan a 
los eficaces de los ineficaces. 

■ Escribir descriptores para las caracteristicas importantes. 

■ Recopilar otra muestra de trabajos de alumnos. 

■ Someter a prueba los criterios con el fin de comprobar si ayudan a valorar 
con precision a los alumnos. 

■ Revisar los criterios. 

■ Intentar de nuevo hasta que la calificacidn de la nibrica llegue a captar la 
“calidad” del trabajo. 

Probablemente se apreciara lo reincidente que es este proceso de disefio. Las ideas 
iniciales sobre los aspectos importantes y calificables del rendimiento del alumno 
se perfeccionan con la prdctica. Los criterios pueden centrarse en el proceso— como 
un alumno aborda y soluciona un problema — y a su vez pueden enfocarse en el 
producto o los resultados. 

Por ejemplo, podemos referirnos al proceso de disefio de los criterios en el 
cuadro 5.5 (Baker, Aschbacher, Niemi y Sato 1992). CRESST disefio su nibrica para 
calificar el grado de comprension del contenido en la asignatura de historia por 
medio de la recopilacidn y examinacion de las diferencias que habfa entre las 
redacciones escritas por expertos en historia (profespres universitarios y 
estudiantes de posgrado de historia) y aquellas escritas por novatos (alumnos de 
institute). Los inyestigadores de CRESST buscaron dimensiones que parecfan 
diferenciar el rendimiento de estos dos grupos. En un niimero de dreas de 
programas de estudio, los investigadores observaron diferencias entre los alumnos 
y los expertos en la aplicacion de conocimientos previos, la utilizacion de 
conceptos y principios organizadores y conceptos equivocados. Estos rasgos 
definieron el primer borrador de los criterios de calificacion. Seguidamente, se 
probaron estos criterios en muestras de trabajos de alumnos y fueron aclarados y 
refinados para asegurar que los baremos estuvieran bien definidos, fueran 
apropiados para la variedad de respuestas de alumnos que esperaban encontrarse, 
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y que permitirfan a los maestros u otros calificadores distinguir entre las 
redacciones que mereclan notas contiguas en la baremo. 

Mientras se realiza la tarea de diseno de los criterios, no se debe olvidar el 
aprovechamiento del trabajo de otros. Muchas veces se puede importar o modificar 
criterios procedentes de programas de evaluacidn estatales y locales, expertos en 
programas de estudio o colegas que han luchado con problemas de evaluacion 
similares. La literatura de investigacidn sobre la evaluacidn alternativa tambi^n 
proporciona ejemplos de evaluaciones altemativas piloto parecidas a la que se 
muestra en el cuadro 5.4, que se puede adapter para su uso en el aula. Tambi^n 
existe una literatura reducida, pero en expansidn, sobre la naturaleza de la 
habilidad en varias disciplinas, como por ejemplo la manera en que un historiador 
lee y utiliza fuentes originales. 



Evaluar los criterios 

Los criterios para valorar los trabajos del alunuio afectan las decisiones que se 
toman eventualmente sobre programas y alumnos. Sin tomar en cuenta si se estan 
disenando los propios criterios o si se est4n utilizando aquellos proporcionados por 
otros, es importante reviser la calidad de las directrices de calificacidn. Terminamos 
este capitulo con la propuesta de un conjunto de “criterios para los criterios” — una 
lista de control que se puede utilizer para valorar la calidad de los criterios de 
calificacion que bien se toman prestados o se disenan. Una propuesta de estos 
criterios aparece en el cuadro 5.11. 

Ahora vamos a ver un conjunto de dimensiones para valorar los criterios de 
cada uno. 



Reiacion con las finalidades mas importantes 

Como mfnimo, los criterios para evaluar el rendimiento del alumno tienen que 
responder a todos los objetivos que se estd intentando medir. Por ejemplo, los 
criterios para evaluar representaciones dramdticas de los alumnos deberian incluir 
todos los aspectos importantes del arte dramdtico y la expresidn artfstica que se 
quiere evaluar, y no otros. Si la originalidad y la presentacidn Idgica forman parte 
de las objetivos deseados, se querrd incluir baremos para evaluar estos aspectos del 
trabajo del alunmo. Si no constituyeran un objetivo importante, se deben omitir. 



Sensibilidad al objetivo 

iCu41es son las decisiones educativas que se tomar4n a partir de la evaluacidn? La 
respuesta a esta pregunta deberia guiar las decisiones sobre si se debe utilizer una 
lista de control o baremo de calificacidn, qu6 mimero de baremos, qu6 
caracteristicas, qu6 tipos de baremo, etcetera. ^Se necesita una visidn global e 



ERIC 



83 



76 



ESTABLECER CRITERIOS 



integral del logro del alumno o una visidn analitica que proporcione informacidn 
sobre varios aspectos especificos del rendimiento del alumno? ^Se, necesita esta 
informacidn en forma num6rica para facilitar su interpretacidn y suma en perjuicio 
de los detalles, o se necesita la riqueza de una descripcion cualitativa, o quizes las 
dos cosas? 



Cuadro 5.1 1 

^Como evaluar los criterios de calificacion? 




□ Todas los objetivos importantes responden a los criterios 

□ La estrategia de calificacion corresponde a la final idad de la decision: 
integral para una vision global y evaluadora; analftica para una vision 
diagnostica. * 

□ El baremo de calificacidn proporciona calificaciones utiles y faciles de 
interpretar. 

□ Los criterios emplean referencias concretas, un lenguaje claro, 
comprensible tanto para alumnos, como para padres y otros maestros. 

□ Los criterios reflejan los conceptos actuales de "excelencia" aceptados en el 
campo. 

□ Los criterios han sido revisados para eliminar prejuicios de desarrollo, 
etnicos y de sexo. 

□ Los criterios reflejan objetivos que se pueden ensenar. 

□ Los criterios se limitan a un numero de dimensiones viable. 

□ Los criterios se pueden aplicar a otras tareas si mi lares o a una area de 
rendimiento superior. 



Significativos^ claros y creibles 

Los criterios que se emplean para valorar un rendimiento tienen que ser 
significativos para los alumnos, padres, calificadores maestros, administradores, 
coordinadores y el publico en general. Si los criterios no son creibles 
probablemente se ignorardn los resultados o se utilizardn incorrectamente. 
Ejemplos de trabajos de alumnos que ilustran las caracteristicas de los criterios 
pueden ayudar a otros a entenderlos. Incluir a otras personas en el disefio de los 
criterios amnenta su credibilidad. 
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Puesto que uno de los principios de la evaluacion del rendimiento reside en 
criterios publicos y hablados, los criterios tienen que tener sentido para los 
alumnos para que los puedan aplicar facilmente a su propio trabajo y asi 
convertirse en alumnos autdnomos. Aunque las opiniones sobre el rendimiento del 
alumno tienden a ser subjetivas por naturaleza, son mas fiables y creibles cuando 
dependen menos de un alto nivel de inferencia y mds de caracterfsticas observables 
y concretes. 



Justas y objetivas 

Las tareas de evaluacidn no s61o deben ser justas, sino que tambien deben serlo los 
criterios que se utilizan para definir la excelencia. Prejuicios no reconocidos 
pueden infiltrarse en las definiciones de las caracterfsticas, las especificaciones 
sobre qu6 tipo de rendimiento corresponde a cada uno de los puntos del baremo y 
la aplicacidn de aquellos criterios a trabajos individuates de alumnos, Cuando se 
desea que los criterios tengan un valor diagndstico, 6stos deben ser sensibles a la 
ensenanza y a las oportunidades que tienen los alumnos de aprender las destrezas 
que se van a evaluar. Por el contrario, no se quiere que reflejen variables sobre las 
cuales los educadores no tienen poder alguno, como por ejemplo la cultura, sexo, 
o entomo socioecondmico de un nino. 



Existen muchas razones que limitan el numero y la complejidad de las 
dimensiones de rendimiento que se van a valorar, En primer lugar, el tiempo, el 
esfuerzo y el dinero disponible para valorar el rendimiento siempre estdn 
limitados, a veces gravemente. En segundo lugar, los calificadores suelen tener 
problemas a la bora de tener en cuenta demasiados aspectos de un trabajo a la vez. 
En nuestra experiencia en CRESST, los calificadores terminaron frustrados cuando 
les pedimos que utilizaran mds de seis o siete baremos para evaluar redacciones de 
alumnos. Se convirtid en una tarea pesada y en un proceso menos fiable. En tercer 
lugar, probablemente los alumnos encontrardn dificil tratar demasiados aspectos a 
la vez de su trabajo. Finalmente, los administradores y coordinadores normalmente 
necesitan informacidn de la forma mas breve posible. Las calificaciones por 
separado para un gran numero de caracterfsticas complejas quizd vuelva aiin mds 
dificil la eficaz utilizacidn de los resultados. 



Generalizables 

Aunque se reconoce que los criterios para \m rendimiento estdn muy relacionados 
con las nociones basadas en disciplinas de lo que constituye la excelencia, la 
calificacidn puede ser mds eficaz cuando un sdlo conjunto de criterios “gendricos” 



Viables 
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puGde servir para tomas, tareas o disciplinas multiples. For ejemplo, se podrfa 
establecer un conjunto comiin de criterios para evaluar la comprensidn del alumno 
de conceptos cientificos por medio de diarios, experimentos pi4cticos, simulacros 
en computadora y presentaciones orales. ^Se podrfa tambi^n utilizar im conjimto 
comiin de criterios para evaluar redacciones de alumnos en las asignaturas de 
ciencias sociales, naturales y matemdticas? Aunque estas situaciones parezcan 
diferentes, es posible incluir criterios gen^ricos para algunos objetivos. Si 
pudieramos conceptualizar la excelencia de manera constante mediante m^todos 
de evaluacidn y disciplinas, nuestros criterios podrfan tener im impacto mds fuerte 
en el aprendizaje y la ensenanza. Nuestro ejemplo de la nibrica de historia-ciencias 
sociales de CRESST (cuadro 5.5) que tambi6n se ha aplicado a las ciencias 
naturales y a las econdmicas, muestra una estrategia para desarrollar criterios 
multidisciplinarias. Como cualquier criterio bueno, estas dimensiones propuestas 
esMn sujetas a una revisidn y refinamiento. 
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Asegurar una 
caliricacion fiable 



Una de las caracteristicas fiindainentales de la evaluacidn del rendimiento es la de 
depender del juicio humano. Como dina un abogado, dos personas que son testigos 
de im mismo suceso, o que leen im mismo documento, muchas veces perciben o 
interpretan de forma distinta. De la misma manera, aquellos que ven la misma 
conducta en ocasiones distintas pueden llegar a opinar de forma diferente sobre esa 
conducta. El usuario o coordinador de evaluaciones altemativas debe tratar de 
minimizar estas diferencias: de no ser asf, las valoraciones no serdn justas, 
constantes o vdlidas. Los buenos procedimientos de calificacidn fomentan este 
proceso. 



Entender la importancia de la fiabilidad y la constanda 

La raz6n m^ clara para una calificacidn constante es la equidad. Las valoraciones 
sobre el rendimiento del alumno no pueden ser caprichosas si queremos que sean 
significativas. Es precise tener la seguridad de que la nota o valoracidn fue el 
resultado del propio rendimiento y no de un aspecto superficial del producto o del 
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contexto de la calificacidn. iSe vio la nota de Yuki afectada injustamente por sus 
faltas de ortografia? ^Sacd Mark una mejor (o peor) nota porque se corrigid su 
proyecto.casi al final, cuando el maestro ya estaba cansado? ^De qud manera se vio 
afectada la nota de Jamal por el hecho de que otro maestro participara en el proceso 
de correccidn? Corinne, suspendid el examen de expresidn escnta porque los 
evaluadores de este ano fueron mds exigentes que los del ano pasado? 

La falta de constancia es especialmente problemdtica cuando los resultados 
influyen en decisiones importantes sobre alumnos o programas. ^Cudl es la nota 
que merece Denisha? iDebemos dejar que Marta se matricule en la clase de nivel 
avanzado de lengua inglesa a pesar de sus bajas notas en las pruebas 
estodarizadas? ,j,Deberfa seguir funcionando el nuevo programa de matemdticas 
del centro? Incluso cuando los resultados de ima evaluacidn aislada no conllevan 
decisiones trascendentales, la falta de constancia conduce a una calificacidn 
inexacta. Para ser mds concisos: vma calificacidn no constante indica que las notas 
tienen poco valor. Si una “A” no representa de manera constante im rendimiento 
sobresaliente, ^entonces qud quiere decir? ^El mejor de la clase? iEl mejor de un 
grupo con un bajo nivel? iUna mejora? Si un rendimiento o un proyecto recibe ima 
calificacidn distinta de diferentes calificadores, iqud significa cada ima de ellas? 
^Cudl es la mds exacta? Si se utilizan los criterios de manera diferente segun el 
perfodo empleado en la calificacidn, iqud significa la calificacidn final? ^Qud indica 
la puntuacidn de un alumno en particular? 



Lograr la constancia 

Una calificacidn justa y significativa requiere de un juicio apropiado y constante. 
^Cdmo se puede evitar la subjetividad caprichosa? Como establecimos en el 
capitulo 5, tener criterios bien definidos y justificables para valorar el rendimiento 
de un alumno contribuye enormemente en conseguir un sistema de calificacidn 
constante, pero existen otras condiciones que hay que reunir para poder asegurar 
esta constancia. En primer lugar, aquellos que van a valorar — ustedes, sus colegas, 
el departamento estatal de educacidn — deben entender los criterios de igual 
manera. La base de la constancia de la calificacidn es el consenso entre los 
calificadores sobre lo que significan los criterios y cdmo se van a emplear. En 
segundo lugar, se necesita un sistema para controlar la constancia de las 
calificaciones dur^te el periodo en el que se evaliia el rendimiento. Esta 
constancia tiehe varias facetas. Dos o mds calificadores que evaluan el mismo 
rendimiento deben llegar a un acuerdo general. Un calificador debe calificar un 
determinado rendimiento de la misma manera sin importar cu4ndo fue observado, 
ya sea al principio del dia, al mediodfa o casi al final. Los calificadores deben 
calificar de forma parecida los mismos rendimientos en distintas ocasiones. Y los 
mismos rendimientos evaluados en dos ocasiones distintas ‘por dos grupos 
distintos de calificadores deben igualmente calificarse de manera similar. Si las 
calificaciones se van a emplear para tomar decisiones trascendentales como son 
pasar de un curso a otro, la graduacidn o la asignacidn a clases de atencidn especial, 
se debe documentar de manera formal/oficial las evidencias de constancia en la 
.''^lificacidn. 
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Las ventajas del desarrollo profesional 

El proceso que utilizan los calificadores para aprender a utilizar los criterios de 
calificacidn de manera constante puede proporcionar una valiosa oportunidad para 
el desarrollo profesional. La formacidn de los calificadores ayuda a los maestros a 
llegar a una definicidn consensual sobre los aspectos clave del rendimiento escolar. 
Esto puede conducir tanto a una nueva prioritizacidn de los objetivos did^cticos 
como a informacidn acerca de los punt os fuertes y d^biles del rendimiento de los 
alumnos. El proceso de calificar puede proporcionar un modelo de evaluacion en 
el aula y puede fomentar una mayor colaboracidn entre los maestros en la 
evaluacion de objetivos escolares. 

Para poder sacar provecho de la constancia y del crecimiento profesional, se 
requerird procedumentos de formacion buenos y un proceso de calificacidn 
cuidadosamente estructurado. Este capitulo describe las consideraciones mds 
importantes cuando se va a disenar y poner en prdctica un procedimiento de 
calificacion vdlido. Aunque el proceso que describimos tiene sus orfgenes en 
evaluaciones formales y trascendentales a nivel distrito y estatal, se deberd recorder 
que ima calificacidn constante se puede aplicar a todo tipo de evaluacion, sean 
calificaciones durante el curso escolar o pruebas de seleccidn para ingreso a la 
universidad. Las decisiones que se toman sobre un estudiante no pueden ser 
vdlidas si no se basan en informacidn fiable. 



La formacion de calificadores: 

Un requisite para la calificacion constante 

Hay varies formas de conseguir la constancia. Nuestro planteamiento enfetiza la 
formacidn de calificadores a un estdndar comun, ya que esto es eficaz y 
proporciona a los maestros informacidn de valor diddctico. Otros tipos de 
planteamientos dedican menos atencidn a la formacidn de calificadores y a la 
construccidn de consensos, y utilizan multiples opiniones sobre el trabajo del 
alumno para lograr un resultado parecido. Como se puede imaginar, el m^todo que 
se elige depende del objetivo de la evaluacidn y de los recursos disponibles. 

Durante la formacidn de calificadores, 6stos aprenden lo que significan los 
criterios de calificacidn, qu6 aspectos del rendimiento ha de evaluar cada uno y lo 
que cada uno de los puntos del baremo representa. Durante el periodo de formacidn 
es precise asegurar que los calificadores apliquen de forma constante los criterios a 
una amplia gama de muestras de trabajos de ^umnos. Tambi^n es ahora cuando los 
calificadores aprenden c6mo documentar sus calificaciones. 



Manuales de formacion 



Los manuales formales de calificacidn pueden ser de gran utilidad tanto durante la 
formacidn como posteriormente. Para las evaluaciones a gran escala, como por 
ejemplo los programas de evaluacidn anuales a nivel distrito o estatal, uii manual 
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de calificacidn proporciona iina “memoria institucional” de los procedimientos de 
evaluacidn y sirve como util referenda para la interpretaddn de las calificaciones. 
Para evaluaciones trascendentales en el aula, como por ejemplo pruebas de 
selectividad para ingreso a cuisos de alto nivel (Advanced Placement), o una 
prueba de agilidad algebraica, los manuales de calificacidn pueden ser de utilidad 
en las conversaciones con padres o alumnos que quieren saber c6mo lograr o 
mejorar determinadas calificaciones. Las guias tipicas de calificacidn incluyen: 

■ criterios de calificacidn explicados totalmente; 

■ ejemplos o model os que ilustran cada calificacidn del baremo; 

■ una versidn abreviada de una pdgina de los criterios o referencias durante 
la calificacidn actual y 

■ un modelo de formulario para anotar las calificaciones. 

Si se desea, se puede revisar manuales de evaluacidn procedentes de varias fiientes 
antes de disenar un curso propio para la formacion de calificadores. Si se estd 
interesado en la descripcidn detallada del proceso de formacidn de calificadoreis, 
un manual complete de calificacidn disenado por el Riverside Publishing 
Company aparece en Educational Performance Assessment, editado por Fred 
Finch (1991). Los departamentos estatales de educacidn tambien son fiientes de 
manuales de formacidn que han si do publicados. 



Procedimientos de formacion 

La formacidn de calificadores estd disenada para crear un grade de comprensidn 
consensual de los criterios de calificacidn, prbporcionar una pr^ctica extensiva al 
calificar y, en el case de una evaluacidn trascendental, proporcionar niveles 
aceptables de constancia de calificacidn (la fiabilidad). Durante la formacidn de los 
calificadores, las sesiones prdcticas de calificacidn proporcionan a bstos una 
retroalimentacidn inmediata y sustancial acerca de sus decisiones asi como muchas 
oportunidades para formular preguntas. Los calificadores tambibn llegan a 
entender que su trabajo consiste en hacer valoraciones bas^dose en la nlbrica de 
calificacidn, no en revisar o criticar la rubrica y luego seguir sus propias 
idiosincrasias. De no entender estos principios, todo un proyecto de evaluacidn 
puede venirse abajo. 

Una tfpica sesion de formacion incluye: 

■ Orientacion hacia la tarea de evaluacidn. Los calificadores reciben una 
descripcidn del contexto de la evaluacidn, para qud se van a utilizar los 
resultados, quidn los va a utilizar, qud instrucciones y pautas recibieron los 
alumnos, y c6mo es que la gufa de calificacidn hace operative los objetivos 
o procesos deseados. Es habitual pedir a los calificadores que realicen la 
prueba ellos mismos como medio de orientacidn para la tarea de 
calificacidn. 
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■ Aclaradon de los criterios de calificacidn. En esta fase de la formacidn, los 
calificadores entran en un proceso de debate amplio. Tanto las 
dimensiones de los criterios como los valores del baremo se definen y se 
proporciona toda iina serie de modelos que ejemplifican cada uno de ellos. 
Los debates normalmente abarcan desde lo que son los juicios mds simples, 
como por ejemplo lo que constituye ima muestra de im rendimiento alto, 
medio o bajo, hasta diferenciaciones mds dificiles que son necesarias para 
las calificaciones numdricas. 

■ Prdcticas de calificacion. Este es el elemento mds importante del proceso 
de formacidn de calificadores. A1 principio se pimtiian exdmenes muestra 
uno por imo para luego hablar de ellos. A la vez que los calificadores van 
adquiriendo mds soltura con los baremos de calificacidn, tienen la 
oportimidad de tomar decisiones mds dificiles en cuanto a evaluaciones 
problemdticas (atipicas) o dudosas. 

■ Revision protocolaria. Durante la discusidn y las prdcticas de calificacidn, 
los calificadores normalmente establecen algunas reglas para lidiar con 
aspectos de valoracidn inesperados que presenta im determinado conjunto 
de exdmenes y que no entran dentro del baremo de calificacidn. Por 
ejemplo, cuando casi todos los alumnos ban malinterpretado del mismo 
modo ima pregimta, en lugar de calificar todas las respuestas como 
“irrelevante” o “inaceptable”, los calificadores pueden decidir dar 
calificaciones que se basan en la interpretacidn que el alumno ha hecho de 
la tarea. O, si hay que calificar muchas caracteristicas diferentes, los 
calificadores pueden decidir que determinados calificadores se dediquen a 
la calificacidn de algimas de las caracteristicas, en lugar de estar todos 
calificando cada examen en todas sus dimensiones. 

■ Anotacidn de las calificaciones. En todas las evaluaciones, se deberd 
anotar de alguna manera las calificaciones de los alumnos, en listas o en las 
actas de clase, curso, o centra. La formacidn de los calificadores incluye el 
formato para la anotacidn de las calificaciones y todos los procedimientos 
especiales para calcular las notas de los alumnos, como por ejemplo sacar 
la media o el total por dimensiones. 

■ Documentadon de la fiabilidad de los calificadores. La formacidn de los 
calificadores termina cuando hay un acuerdo de que todos los calificadores 
han llegado a im nivel aceptable de constancia, normalmente cuando la 
calificacidn de las muestras difiere tan s61o en im pimto. Para poder decidir 
cu^do los calificadores estdn debidamente capacitados, se llevan a cabo 
pruebas de fiabilidad durante la formacidn. El cuadro 6.1 presenta im 
ejemplo de c6mo comprobar la constancia de los calificadores utilizando 
el sistema de acuerdo por porcentaje. 

■ Factores a considerar en la programacidn. ^Cudnto tiempo llevard la 
formacidn de calificadores hasta que lleguen a im nivel aceptable antes de 
permitirles corregir trabajos de alumnos? Esto dependerd de: 

— La experiencia de los calificadores. 
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— Su familiarizaci6n con los criterios de calificacidn. 

— La rapidez con la que los calificadores consigan llegar a un 
consenso sobre lo que significan los criterios. 

— La complejidad de los criterios de calificacidn y la calidad del 
trabajo que se ha de evaluar— siendo los trabajos dudosos los mds 
diffciles de evaluar con rapidez. 

Hemos comprobado que se requiere de tres a cuatro horas para preparar a los 
calificadores en la utilizacidn de un baremo integral o analitico simple (de dos a 
cuatro caracteristicas). Los baremos mds complicados requieren de casi todo un dia 
de preparacidn. 



Cuadro 6.1 

Calculo del acuerdo entre calificadores 
(Tres calificadores para dos examenes) 



Calificador 


|Esta el calificador totalmente de 
acuerdo con la calificacidn 
establecida? 


|Esta el calificador de acuerdo con 
la calificacidn establecida en 
mas/menos un punto? 


Examen 
N° 1 


Examen 

N°2 


Media de 
acuerdo 
entre los 
calificadores 


Examen 
N° 1 


Examen 

N°2 


Media de 
acuerdo 
entre los 
calificadores 


Linda 


si 


no 


50% 


si 


no 


50% 


Robert 


no 


no 


0% 


si 


si 


100% 


Ellia 


si 


si 


100% 


si 


si 


100% 


Total 


67% = si 


33% .= si 


50% 


100% = si 


67% = si 


83% 



El cuadro 6.1 ilustra el caso de tres calificadores a los que se les pidid que calificaran dos exdmenes 
tipo despuds de alguna formacidn previa. Segun los resultados que muestra el cuadro, Linda estd de 
acuerdo con la calificacidn modelo para el primer examen, pero no con la del ^undo; de hecho, 
referente al segundo examen demuestra mds de un punto de desacuerdo con la calificacidn 
establecida. Robert no estd totalmente de acuerdo con las calificaciones modelo ni para el primer 
examen, ni para el segundo, pero estd de acuerdo con mds/menos un punto de diferencia con la 
calificacidn de ambos examenes. Ellia estd de acuerdo con todas y esti preparada para calificar 
trabajos de alumnos. Robert y Linda probablemente necesitan un poco m^s de formacidn. El segundo 
examen causa m^s problemas a los calificadores que el primero, asf que la formacidn adicional 
deberfa centrarse en la capacidad de distinguir la calificacidn establecida de las calificaciones 
contiguas. A la hora de describir estos resultados se podria decir, "Como promedio, los calificadores 
Ilegaron a un total acuerdo con las calificaciones modelo en un 50% de las veces, y llegaron a un 
acuerdo de mtis/menos un punto en un 83% de las veces." 
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El cansancio de los calificadores es un factor importante en la calificacidn; 
consideramos que un dia completo de trabajo equivale a una sesidn de seis boras. 
Tambi^n se deberd programar el tiempo para volver a capacitar a los calificadores 
o para refirescarles la memoria al principio de cada nuevo dia que se dedica a la 
calificacidn y, por supuesto, para cualquier cambio de temas o tareas que emplean 
los mismos criterios de calificacidn. En una evaluacidn trascendental, el volver a 
capacitar al calificador tiene normabnente lugar despuds de un buen descanso, 
como por ejemplo tras el almuerzo. 



Temas relacionados con los eximenes tipo utilizados durante 
la formadon 

Dado que la formacidn de los calificadores constituye un ensayo para la calificacidn 
real, es necesario anticipar tantas fuentes de desacuerdo entre calificadores como 
sea posible antes de su formacidn y sacar ejemplos de los exdmenes utilizados que 
faciliten el desacuerdo y la discusidn. Por ejemplo, las construed ones sintdcticas 
utilizadas por hablantes no naturales de inglds hacen suigir temas relacionados con 
la relacidn entre el contenido y los objetivos de la comunicacidn. Tambidn se 
debenan tratar asuntos relacionados con la letra de los alumnos y la l^ibilidad o 
cuestiones de calidad estdtica en las artes pldsticas o del escenario. Finalmente, 
debemos aseguramos de que los extoenes tipo que se seleccionan para la 
formacidn reflejen no sdlo cada punto del baremo a utilizar, sino tambidn toda la 
gama del rendimiento del alumno que es probable que se encuentre en la 
evaluacidn. La tendencia humana natural es la de calificar normativamente. Las 
mejores muestras de trabajo de un conjunto de extoenes relativamente flojos 
pueden tener una calificacidn mds alta de la que recibirfan si formaran parte de un 
grupo de exdmenes relativamente fuertes. De igual manera, tambidn podrfa ocurrir 
lo contrario. Se deberd hablar sobre esta tendencia durante la formacidn de los 
calificadores y acompanarla de ejemplos para que los criterios de calificacidn 
mantengan el mismo significado en los diferentes conjimtos de exdmenes y durante 
todas las distintas sesiones de calificacidn. 



Obtencion de exdmenes tipo 

Dado que se necesita una amplia seleccidn de ejemplos de trabajos para guiar a los 
calificadores, se debe recopilar muestras de un grupo heterogdneo de alumnos. Se 
deberd seleccionar muestras de un trabajo de campo, de una evaluacidn anterior o 
de la evaluacidn actual. En la seleccidn de exdmenes apropiados para la formacidn 
y el control, un grupo de “expertos” — maestros de los cursos y asignaturas 
implicadas en la evaluacidn que estdn familiarizados con los criterios de la 
evaluacidn — pueden ser de gran ayuda. Estos maestros pueden seleccionar 
ejemplos que ilustren todas las posibles respuestas, desde la mds clara a la mds 
dudosa, para cada uno de los puntos del baremo de manera que los calificadores 
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esten preparados para enfrentarse a todas las posibles situaciones. Si en la 
evaluacidn se utilizan varias preguntas o tareas, se necesitanan ejemplos que 
ilustren cada una de ellas. Si se estd utilizan do baremos relacionados con la.edad 
en todos los cursos, se necesitanan ejemplos que ilustren los niveles de las distintas 
edades. Tambien es util preparar comentarios escritos que expliqueri c6mo los 
aspectos especificos de cada examen reflejan los criterios de una nota en particular. 
El grupo de expertos podria mis adelante identificar muestras que ser^ utilizadas 
para (1) discusiones en la sesidn de forinacidn, (2) la prdctica y (3) la comprobacion 
de la constancia. 



Temas relacionados con la documentacion de notas 

Se deberd proporcionar a los calificadores un metodo para la documentacion de las 
notas de los alumnos. En la propia aula, las notas quizes se anoten simplemehte en 
la parte superior del examen del alumno y luego’ en la lista de clase. Algunos 
maestros utilizan los criterios de calificacidn como retroalimentacidfi para 
alumnos. Estos maestros marcan las dreas deficientes o anotan los puntos fuertes 
consultando los descriptores de la guia. El mismo proceso puede utilizarse para 
crear un perfil de la clase en una guia maestra de calificacidn. 

En situaciones mds formales de evaluacidn, las libretas de notas se convierten 
en documentos publicos y se utilizan para proporcionar retroalimentacidn para 
maestros y otros. Los analistas de datos tambidn las utilizan para calcular 1^ 
estadfsticas de exdmenes. En estas circunstancias, se da a los calificadores 
documentos informatizados para rellenar casillas y otra informacidn importante 
como por ejemplo centro, distrito y niimeros de identificacidn de los calificadores, 
asf como los cddigos para el tema o tarea y fecha. Cuando hay dos o mds 
calificadores calificando los trabajos de los alumnos, habrd que recordarles que no 
indiquen notas, comentarios o correcciones en el papel de examen. No es deseable 
que una calificacidn posterior se vea influida por estos comentarios. 



Temas relacionados con la fiabilidad 

El objetivo de la formacidn de los calificadores es establecer procedimientos de 
calificacidn constantes y fiables. Por consiguiente, se deberd incorporar un mdtodo 
para determinar si los calificadores son constantes durante el periodo de formacidn. 
Existen muchas estrategias para comprobar la fiabilidad de los calificadores. Un 
mdtodo empleado frecuentemente es el de preparar y calificar con antelacidn un 
conjunto de unos diez exdmenes de “control de fiabilidad” que representen toda la 
gama del posible rendimiento del alumno. A continuacidn se pide a 16s 
calificadores que califiquen este mismo conjunto para comparar sus calificaciones 
con las de los otros evaluadores con mayor experiencia. Un nivel de acuerdo 
razonable tanto con las decisiones de los expertos como con las de entre ellos 
mismos sugiere que los calificadores estdn preparados para calificar el trabajo real 
de alumnos. ! ‘ 
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lQ}i6 es lo se debe entender por acuerdo razonable? Se puede exigir que los 
calificadores lleguen a un acuerdo total antes de considerarles babies, o se puede 
utilizar la regia menos rigurosa de “mds o menos uno”, que es bastante comun y 
que establece que los calificadores estdn “de acuerdo*’ si s61o difieren en un punto 
“mds o menos’’. Por ejemplo, si la calificacidn de una determinada muestra de 
control de fiabilidad es un “3’’, se considera que aquellos que dieron una 
calificacidn de “2”, “3’’ 6 “4’’ estdn preparados. 

Sin tomar en cuenta el nivel de acuerdo deseado que se elija, cuando se forma 
a los calificadores, el objetivo es que aprendan a utilizar los criterios de calificacidn 
tal y como se pretendia, y no con un punto de diferencia. Cuando un calificador 
tiene dificultades en aplicar los criterios tal y como se pretende, se debena dedicar 
algun tiempo durante la formacidn a la discusidn de los ex4menes que se utilizan 
para practicar, de los criterios y reglas que se ban de seguir para aplicarlos con el 
fin de que el calificador alcance un nivel aceptable de constancia. Sin embargo, 
algimos calificadores quizes no puedan ajustar sus criterios intemos a las guias de 
calificacidn. Estos calificadores que no logran adaptarse debenan ser dados de baja 
o asignados a otras tareas durante la sesidn de calificacidn. 

Ademds de establecer qud diferencia se va a permitir entre los calificadores para 
lograr la constancia, tambidn se deberd decidir el niimero de veces que deben 
conseguir estar de acuerdo. Si lo que se requiere es un acuerdo total, algo dificil de 
obtener, el criterio de fiabilidad podria ser menos riguroso que si se utiliza la regia 
de “mds o menos uno”. En CRESST, normalmente pedimos que los calificadores 
alcancen un acuerdo con los expertos al menos en un 90 por ciento de las veces 
para cada dimensidn de la calificacidn cuando se utili 2 » la pauta de “un punto 
arriba o abajo”. La pauta para el acuerdo total puede reducirse a un 75/80 por ciento 
bajo condiciones mds estrictas. El porcentaje actual de acuerdo varla segiin el 
objetivo de la evaluacidn y la trascendencia de la misma. 

Sin tomar en cuenta la definicidn de lo que es “el acuerdo entre calificadores”, 
el objetivo de los controles de fiabilidad es el de asegurar que las calificaciones de 
los alumnos no sean el resultado de un juicio caprichoso, uno de los aigumentos 
mds citados en contra de la evaluacidn de rendimiento. Consideremos el conocido 
estudio llevado a cabo por Paul Deidrich (1963) en el Servicio de Evaluacidn 
Educative (Educational Testing Service) en el que una misma redaccidn recibid 
todas las posibles calificaciones de un grupo de calificadores. Lo que la mayona no 
recuerda de este estudio es que se obtuvo niveles aceptables de acuerdo entre los 
calificadores cuando los evaluadores (1) procedian de la misma discipline, (2) 
utilizaban criterios de calificacidn explfcitos y (3) habfan participado en una sesidn 
de formacidn previa. 
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Asegurar juicios equitativos durante una sesion 
de calificacion real 



Mantener la constancia 

La docuinentaci6n de la constancia de los calificadores durante su formacidn es 
simplemente el primer paso hacia la creacidn de un procedimiento de calificacion 
justo y equitativo. Puesto que el objetivo de la formacidn de los calificadores es el 
de fomentar la constancia entre ellos, tambi6n habrd que controlar y vigilar los 
patrones entre la calificacidn de los calificadores durante el mismo proceso de 
calificacidn. La investigacidn demuestra que los calificadores tienen tendencia a 
alejarse de los criterios formales acercdndose a sus propias opiniones mds 
idiosincrdsicas (Quellmalz y Burry 1983). Los juicios y expectativas humanas se 
ven afectadas no s61o por los estdn dares formales, como por ejemplo los criterios 
de calificacidn, sino tambidn por su experiencia previa y la gama de rendimiento 
que se est4 evaluando en ese momento. Si todo el conjunto de rendimiento parece 
ser relativamente “deficiente” segiin los criterios que apuntan al objetivo, los 
calificadores tienden a bajar los criterios' para poder dar notas mds altas a los 
exdmenes que estdn entre lo “mejor de lo peor”. Como maestro, uno quizd sea 
consciente de que los estdndares y expectativas que tenemos puestos en los 
alumnos cambian durante el proceso de calificacidn. Hasta cierto punto 
modificamos nuestras ideas despuds de ver varios trabajos de los alumnos. Por esta 
razdn, las sesiones de formacidn deben incluir un gran numero de exdmenes y la 
complete gama que se podrfa encontrar durante el propio proceso de calificacidn. 

Para una evaluacidn realizada en el aula, se puede comprobar la constancia 
detenidndose en medio del proceso para volver a puntuar algunos de los primeros 
trabajos de alunmos ya corregidos. Cuando se va a calificar varias dimensiones o 
temas diferentes, se puede corregir a la vez sdlo una dimensidn o el trabajo 
relacionado con un sdlo tema, para luego volver a calificar los otros factores. 
Muchas veces es mds rdpido calificar todos Ids exdmenes varias veces, una vez por 
cada dimensidn o tema diferente, que corregir exdmenes individuates mirando 
todas las dimensiones a la vez y aplicando criterios multiples o leyendo distintos 
tipos de respuesta. La velocidad de calificacidn aumenta tambidn conforme uno se 
va familiarizando con los criterios. 

Para una evaluacidn a nivel centro, de mayor escala, o trascendental, es 
deseable incluir mds controles formales de constancia entre los calificadores. Para 
la calificacidn de redacciones, a veces esto se lleva a cabo introduciendo exdmenes 
de control ya calificados a intervalos designados entre los exdmenes de cada 
calificador. El director de calificacidn comprobard luego la calificacidn de los 
calificadores de este examen y trabaja con aquellos que se han alejado de la 
aplicacidn constante del baremo de calificacidn. Otro mdtodo es el de celebrar 
pequenas sesiones de formacidn a primera hora de la manana o inmediatamente 
despuds del almuerzo. Los calificadores corrigen un conjunto comun de exdmenes 
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de control, igual que hicieron durante su formacidn. Aquellos que se han alejado 
del estandar preestablecido (acuerdo total; mas o menos un punto) participardn en 
una sesidn de repaso o volverdn a ser controlados antes de permitirles seguir 
calificando. 

Otra consideracidn de constancia en la evaluacidn a gran escala se refiere al 
control de prejuicios en las decisiones de calificadores. Habra que asegurarse de 
que los calificadores que trabajan juntos no formen subgrupos segiin afinidades de 
acuerdo ignorando al resto de los calificadores. Para evitar esto, se deberd romper 
los grupos de calificadores a intervalos periddicos y volver a puntuar 
exdmenes/trabajos ya calificados por otros calificadores asignados a otras mesas o 
localidades. 



La logistica de la organizacion 

Aunque la preocupacidn mds importante del proceso de evaluacidn es la de lograr 
la constancia, llevar a cabo una sesidn de calificacidn implica varias cuestiones 
logisticas y tdcnicas. Buscar la bora mds apropiada es una de las cuestiones 
fundamentales en la planificacidn de una sesidn de calificacidn. Puesto que la 
tendencia natural es la de sentirse cansado conforme el dia avanza, serfa 
conveniente programar esta sesidn a una bora temprana y asf evitar las ultimas 
boras de la tarde. Un fdcil acceso a una fotocopiadora solucionarfa cualquier falta 
inesperada de material o incluso permitiria copiar aquellos exdmenes que deben 
discutirse durante la sesidn. Ademds, la correccidn es una actividad muy intensa; 
se deberd programar frecuentes descansos y refrigerios (mucba fruta y 
carbobidratos, y pocos aziicares). El lugar donde se lleve a cabo la sesidn debe ser 
tranquilo y cdmodo, con mucbo espacio para que los calificadores puedan 
acomodar todo el trabajo que se va a evaluar. La pesadilla de los calificadores es 
trabajar en un gimnasio con mesas y sillas plegables a las 3:30 de una tarde calurosa 
de Mayo y con la banda del colegio ensayando en el patio. 

Otra cuestidn es la de controlar la distribucidn de los exdmenes o trabajos. En 
las evaluaciones a gran escala, cada mesa de calificadores debe tener su propio 
coordinador cuya linica preocupacidn es la de dirigir la distribucidn de los 
exdmenes y controlar y vigilar la constancia de los calificadores. Nuestra 
experiencia indica que las pilas de trabajos que llevan alrededor de una bora para 
su correccidn resultan mds fdciles para los calificadores que trabajos individuates. 
El mimero de trabajos en cada montdn varia segun la naturaleza de la tarea y la 
complejidad del sistema de calificacidn. En evaluaciones de expresidn escrita, por 
ejemplo, podemos incluir entre 15-25 exdmenes, mientras que en un conjunto de 
carpetas de trabajo se debe incluir tan sdlo 4r-6. Sin tener en cuenta cdmo se va a 
agrupar el trabajo, se deberd asignar aleatoriamente los trabajos individuates a los 
montones para luego asignar estos, tambidn de forma aleatoria, a los calificadores 
para asi evitar que se produzcan efectos de calificacidn sistemdtica. Para 
evaluaciones formales, se deberd asignar mimeros de identificacidn tanto a 
calificadores como a alumnos, y de esta forma proteger la intimidad y evitar 
prejuicios. 



ASEGURAR UNA CALIFICACI6N FIABLE 



Habrd tambien que decidir si se debe mezclar cursos o temas dentro de una 
misma sesidn de calificacion. Generalmente no se hace, a menos que el objetivo de 
la evaluacion sea el de comparar alumnos de distintos cursos con el mismo baremo 
de calificacion. En las evaluaciones a gran escala, los distintos temas se asignan 
bien a diferentes grupos de calificadores o se califican por separado con una sesidn 
previa para refrescar la memoria del calificador antes de cada cambio de tema. 

Otro asunto que puede dar problemas mas adelante si no se controla con 
cuidado, es asegurar que los calificadores anoten la informacidn necesaria de forma 
correcta. ^Se ban rellenado todas las casillas con los niimeros de identificacion y 
las calificaciones? ^Se ban anotado las calificaciones para todos los examenes 
corregidos? ^Tienen todos los alumnos sus calificaciones? La lista es enorme. Se 
debe intentar anticipar los posibles problemas y crear estrategias sea para 
prevenirlos o para solucionarlos. 



Asegurar una calidad tecnica 

Aconsejar sobre todas las decisiones tecnicas que se deberd tomar para asegurar la 
exactitud y equidad de la calificacidn no entra dentro de los objetivos de este libro 
y, de cualquier forma, corresponderfa al campo de la psicometria. Si se estd 
evaluando con el fin de tomar una decision trascen dental, y especialmente si esa 
decisidn puede ser motive de demanda, aparecer en la primera plana de un 
periodico local, o pasar por un cpmit6 de educacidn, quizd se desee recurrir a la 
ayuda de un asesor t^cnico que estructure el proceso de calificacidn y ayude a 
documentar la fiabilidad de las notas dadas a los alumnos. Algunas de las 
cuestiones que habrd que abordar son las siguientes: 

^Cuantos calificadores hacen falta? Por supuesto, esto depende del numero de 
trabajos que se van a corregir, de cudntas correcciones reciba cada trabajo, del 
tiempo que se tarde en corregir cada trabajo y del numero de dias de que se 
dispongan para la calificacidn. En general la calificacion integral de redacciones de 
una a dos pdginas es rdpida, a veces incluso a examen por minuto. Una evaluacidn 
compleja analitica de trabajos mds largos puede llevar de cuatro a cinco minutos 
por examen. Las carpetas de trabajos pueden incluso llevar mds tiempo. En cuanto 
al numero de dias, nuestra experiencia indica que los calificadores pueden estar 
muy cansados despues de cuatro o cinco dias. 

^Cuantas correcciones por examen? Una correccidn eficaz y una vigilancia y 
control cuidadosa del proceso de calificacidn pueden disminuir la necesidad de 
llevar a cabo una correccidn multiple de la misma dimensidn del trabajo del 
alumno. Los calificadores multiples son necesarios para cada examen cuando 
tienen poca experiencia o cuando existen pocas pruebas de que no estdn 
empleando los mismos criterios y estdndares a la bora de tomar decisiones. La 
necesidad de correcciones multiples depende de la finalidad de la evaluacidn. 
Entre mds graves sean las consecuencias, mds importante serd asegurar la 
constancia. Nuestra experiencia indica que no se necesitan mds de dos calificadores 
por trabajo; las calificaciones se pueden sumar o se puede sacar la nota media para 
llegar a la nota final. Se puede recurrir a una tercera opinidn para los casos dificiles, 
como por ejemplo para ese examen de pesadilla que saca tanto la calificacidn mds^ 
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En algunas situaciones, una correcci6n es suficiente para la mayoria de los 
exdmenes. Consideremos una situacidn en la que la seleccidn, asignacidn un curso 
especifico u otra decisidn critica se va a tomar basdndose en algun estdndar o 
calificacion preespecificada. Si los exdmenes utilizados en la formacidn y los del 
control demuestran que los calificadores son constantes, los unicos exdmenes que 
requerirdn dos o m4s correcciones serdn aquellos exdmenes dudosos que tengan 
una calificacidn rozando el aprobado. Puesto que la correccidn es un proceso caro, 
habrd que lograr el equilibrio entre cuestiones como la fiabilidad y aquellas de coste 
y eficacia. 

^Como se califican los ex4menes con fines evaluativos? Si las calificaciones de 
los alunmos se van a utilizar para la evaluacidn del programa en lugar de para una 
evaluacion individual, una estimacidn fiable de la calificacidn de un determinado 
alunrno es menus critica que la calificacidn media de la tarea. La mayoria de los 
trabajos s61o se pueden leer una vez y las pruebas de fiabilidad s61o pueden 
obtenerse en una linica muestra de trabajo (quizes un 20 por ciento), que la corrigen 
dos o m4s calificadores. Si se esM utilizando muestras de alumnos para evaluar un 
programa y no hay que proporcionar calificaciones individuales a los maestros, es 
m4s eficaz calificar una muestra seleccionada aleatoriamente. El asesor t^cnico 
puede aconsejar sobre el tamano de la muestra y la manera apropiada de 
seleccionarla. 



Para evaluaciones trascendentales, se deberd documentar oficialmente la 
constancia y fiabilidad del proceso de calificacidn. Es conveniente aprovechar los 
servicios de un experto tdcnico antes de empezar a calificar para asi asegurarse de 
que se tiene un esquema de calificacion apropiado, de que se esta recopilando 
pruebas apropiadas y de que los datos utilizados se han formateado de una manera 
apropiada para facilitar su andlisis. 

A continuacion presentamos algunas de las fuentes de pruebas relevantes: 

■ Los resultados del control de calificadores despues de su foimacidn. Se 

deberd informar sobre el nivel de acuerdo exigido. ^Cudl fue la proporcion 
de calificadores aprobados en un primer momento? ^Cudl fue el nivel 
medio de acuerdo entre aquellos que aprobaron? 

■ Los resultados del control de constancia durante la correccidn. Se debera 
informar sobre el nivel de acuerdo exigido. ^Cudntos controles hubo y 
cudndo se llevaron a cabo? ^Cudl fue la proporcidn de los calificadores que 
aprobaron sin tener que repetir el proceso? ^.Cudl fue el nivel medio de 
acuerdo en los controles? 

■ Los resultados de fiabilidad entre calificadores en la evaluaddn de 
trabajos de alunmos Uevada a cabo por mds de un calificador. El acuerdo 
expresado a manera de porcentaje entre los calificadores y los coeficientes 
de generalizabilidad son dos t^cnicas usadas firecuentemente. Cada uno de 
ellos se calcula por separado para cada baremo empleado. Como guia se 



Proporcionar pruebas de fiabilidad 





92 



ASEGURAR UNA CALIFICAC|6n FIABLE 



necesita una correcci6n doble al menos en iin 20 por ciento de las muestras 
de alumnos para poder recopilar suficientes evidencias y, si estin 
implicados mas de dos calificadores, harfa falta consultar a im estadistico 
que ayude a crear un diseno equilibrado que especifique cuales son los 
trabajos que debe coiregir cada calificador. 

lQu6 nivel de acuerdo o fiabilidad es el deseable? Por supuesto la 
respuesta es: depende de las decisiones que se tomen. Cuanto mds crlticas 
o restrictivas sean las consecuencias, mds fiable ha de ser la calificacion. En 
general, los coeficientes de fiabilidad de .70 en adelante se consideran 
adecuados. Los coeficientes de .90 en adelante son firecuentes en exdmenes 
tipo test estandarizados y evaluaciones directas de la expresipn escrita a 
gran escala. 

■ La constancia de los calificadores con el paso del tiempo. Cuando se 
quiere asegurar que el baremo de calificacibn sea constante ano tras ano — 
por ejemplo, cuando se utilizan resultados en evaluaciones estatales para 
seguir las tendencias con el paso del tiempo — se deberd incluir junto con 

- la evaluacion de este ano una muestra adecuada de trabajos de alumnos de 
la evaluacion del ano anterior. El acuerdo entre las calificaciones dadas se 
puede comprobar posteriormente y, si es necesario, se puede hacer ajustes 
estadisticos con las diferencias. 

■ La constancia entre los calificadores de diferentes lugares o entre 
diferentes gnipos de calificadores. Al igual que en el control de la 
constancia con el paso del tiempo, si el trabajo del alumno va a ser 
calificado en lugares distintos o por grupos diferentes de calificadores, 
habrb que llevar un control de constancia de estos grupos. Por ejemplo, im 
estado puede convocar cuatro talleres regionales para calificar sus 
evaluaciones prdcticas de ciencias, o una evaluacibn a nivel distrito puede 
exigir que cada escuela califique los trabajos de sus alumnos. Una manera 
de comprobar la constancia podria hacerse comparando el trabajo 
calificado por cada grupo con un conjunto comdn de trabajos. En el lugar 
numero uno, por ejemplo, los calificadores evaluarian los trabajos 
asignados especfficamente a ese lugar mds los del conjimto comiin; los 
calificadores del lugar numero dos evaluarfan los trabajos asignados a ese 
lugar mds los del conjunto comiin, etcetera. Las calificaciones para el 
conjunto comiin serdn posteriormente comprobadas para averiguar su 
constancia. 

■ La constancia entre los calificadores. Este es el nivel de constancia que 
mantiene un calificador a lo largo del tiempo. Esto se puede comprobar 
pidiendo a los calificadores que califiquen un mismo trabajo mds de una 
vez en distintos momentos del proceso de calificacibn. 
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Comprobar la fiabilidad del proceso de correccion 

Como resumen de muchas de las cuestiones txatadas en este capftulo, se puede 
utilizar la siguiente lista de control para averiguar si los procedimientos de 
calificacidn son buenos y fiables. Se cuenta con: 

[ 1 gufa de calificacidn documentada y probada 
[ 1 criterios claros y concretos 

[ 1 ejemplos anotados de todos los valores de calificacidn 
[ ] oportunidades de practicar con retroalimentacidn para los 
calificadores 

[ ] calificadores multiples que demuestran un acuerdo previo al proceso 
de calificacion 

[ 1 controles periddicos de fiabilidad durante todo el proceso 

[ 1 volver a capacitar al calificador cuando sea necesario 

[ 1 previsiones para la recopilacion de datos apropiados de fiabilidad 
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Utilizacion de la evaluacion 
alternativa para la toma 
de decisiones 



A lo largo de este libro hemos examinado varias cuestiones importantes en el 
disefio de evaluaciones altemativas de calidad: iQu6 es la evaluacidn alternativa? 
^C6mo podemos identificar tareas apropiadas de evaluacion? iQu6 debieran incluir 
los criterios? ^En qu6 consisten los buenos procedimientos de calificacidn? Ahora 
volvemos nuestra atencion a la razdn que nos condujo en un principio al disefio de 
evaluaciones altemativas: la de tomar decisiones apropiadas sobre alumnos y 
programas. 

Este es tin punto de importancia clave: la evaluacidn no es una final! dad en sf 
misma. bien, la evaluacidn proporciona informacidn para poder tomar 
decisiones sobre lo que los alumnos ban aprendido, que notas se nierecen, si los 
alumnos deben o no pasar al siguiente curso, a qu6 gmpos se les debe asignar, qu6 
ayuda necesitan, que areas de la diddctica de la clase necesitan renovarse, si el 
curriculo del centre necesita reforzarse, etcetera. Una buena evaluacidn nos permite 
caracterizar con exactitud el funcionamiento y rendimierito de los alumnos para 
poder tomar decisiones apropiadas que mejoren la educacidn. 
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^Contribuye la utilizaci6n de los resultados de una evaluacidn a tomar 
decisiones acertadas? Esta es la clave de c6mo valoramos la calidad de una 
evaluacidn. Los coordinadores de educacion y el publico en general tienen mucha 
fe en las pruebas estandarizadas, y en su eficacia en ayudamos a sacar conclusiones 
acertadas sobre alumnos y centres. Desgraciadamente, algunos creen que esta fe no 
tiene base. A1 convertimos en consumidores de evaluaciones mds sofisticados, nos 
hemos cuestionado mds sobre lo que realmente nos dicen estas pruebas. ^Las 
calificaciones de la Prueba de Aptitud Escolar (Scholastic Aptitude Test) 
identifican realmente a los alumnos que van a tener dxito en la universidad? Si no 
fuera asf, ^cudnto peso se les debe dar en las decisiones sobre el ingreso a la 
universidad? ^Proporcionan las evaluaciones estatales el tipo de informacion que 
los centros necesitan para mejorar sus programas? ^A)njdan a los coordinadores de 
educacion y al publico en general a averiguar si los alumnos aprenden lo que 
necesitan saber y ser capaces de hacer? ^Los exdmenes tipo test permiten a los 
alumnos demostrar su plena comprensidn de una asignatura? Si no fuera asf, ^hasta 
que pimto debidramos depender de ellos cuando se toma decisiones sobre alumnos 
y programas? 

La insatisfaccion con los exdmenes tradicionales ha alentado a los maestros y 
al estado entero a encontrar formas altemativas de evaluacidn. Sin embai^o, los 
formatos altemativos por sf solos no pueden garantizar una buena evaluacion. 
Debemos aplicar a las evaluaciones altemativas el mismo esemtinio que nos 
permitio ver tanto las limitaciones como los puntos fuertes de los exdmenes 
tradicionales. Tenemos que aseguramos de que las evaluaciones que pretendemos 
utilizar vayan a ayudar y no a perjudicar a los alumnos, programas y centros. 

Este capftulo destaca los temas que deben tomarse en cuenta cuando se utilizan 
las evaluaciones, sean altemativas o no. Empezamos con un andlisis a dos 
conceptos claves para evaluar la calidad de cualquier evaluacidn: la validez y la 
fiabilidad. Mds adelante examinamos tres importantes cuestiones que gufan la 
utilizacidn apropiada de la informacidn que arroja la evaluacidn: 

1. ^C6mo influye el contexto de la decisidn que se ha de tomar y su 
utilizacidn intencionada a las cuestiones de calidad del programa de 
evaluacion? 

2. ^C6mo podemos aseguramos de que una evaluacidn nos proporciona la 
informacidn apropiada para la toma de decisiones? 

3. ^Como podemos utilizar los resultados de la evaluacidn para mejorar la 
ensenanza? 

Vean c6mo nos dirigimos a cuestiones de calidad evaluadora antes de proporcionar 
ejemplos concretos de c6mo utilizar los resultados de una evaluacidn. Lo hacemos 
asf para enfetizar que la calidad de la evaluacidn siempre es importante y que hay 
que tenerla en cuenta antes de utilizar los resultados. Si una evaluacidn no 
proporciona buena informacidn para tomar decisiones, su utilizacidn puede ser 
perjudicial. 

Antes de aventuramos mds, recordamos a los lectores que por razones de 
simplificacion a lo largo de este libro hemos examinado cuestiones desde la 
perspectiva de una linica evaluacion. Sin duda los lectores sabrdn perfectamente 
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que ningiina evaluaci6n o examen individual constituye una buena estrategia de 
evaluacidn. Todas las evaluaciones, incluso las mejores, son imperfectas y falibles. 
Las evaluaciones altemativas, como todas las evaluaciones, deben utilizarse junto 
con otras fuentes de informacidn para constituir un programa de evaluacidn 
sistematico y equilibrado. Mientras leemos acerca de los factores que influyen en la 
utilizacidn de exdmenes, hay que recorder que las mismas cuestiones que 
corresponden a una evaluacidn individual se pueden aplicar a todo un conjunto de 
evaluaciones o a un sistema complete de evaluacidn. 



Cuestiones que aseguran la calidad, la validez y la fiabilidad 

^Proporciona una evaluacidn la informacidn precise para la toma de decisiones? 
^Permiten sus resultados sacar conclusiones precises y justas sobre el rendimiento 
del alumno? ^Nos conduce la utilizacidn de los resultados a unas buenas 
decisiones? Estas son las cuestiones centrales cuando juzgamos la calidad de ima 
evaluacidn. Si queremos obtener respuestas afirmativas a estas preguntas, nuestras 
evaluaciones ban de ser tanto fiables como vdlidas — terminos que utilize la 
comuni dad de medicidn para estas mismas cuestiones. 



La fiabilidad: La estabilidad del rendimiento 

Anteriormente introdujimos el concepto de fiabilidad en relacidn con la constancia 
de juicios humaiios. Hemos visto que existen varies formas para asegurar niveles 
aceptables de acuerdo sobre el rendimiento escolar entre calificadores. Sin 
embargo, la fiabilidad en su sentido mds amplio corresponde a si los resultados de 
imos exdmenes mantienen su significado (permanecen constantes) a pesar de la 
existencia de cambios superficiales en la situacidn evaluadora — de un dia a otro, 
sin tener en cuenta la persona que evaliia el rendimiento o el dia o la bora en la que 
se lleva a cabo la calificacidn. Si Maria escribe un comentario sobre Tristam Shandy 
hoy, manana o el martes que viene, se espera que su rendimiento sea esencialmente 
el mismo en las tres ocasiones. Si su maestro lee su trabajo esta noche, manana o el 
martes que viene, se espera que le de la misma calificacidn o que saque las mismas 
conclusiones sobre el desarrollo de sus destrezas y sus pimtos fuertes o debiles. Si 
Byron es capaz de crear dos metodos para resolver un problema de matematicas 
hoy, se espera que sea capaz de hacer im andlisis pared do para un problema similar 
el viemes o la semana que viene. Sin esta constancia, no podemos decir con 
seguridad lo que im alumno es capaz de hacer. Una calificacidn no fiable es iniitil 
porque no nos diria nada significativo o generalizable sobre el rendimiento escolar. 
Por esta razdn, debemos aseguramos de que nuestros resultados sean fiables antes 
de preocupamos por la validez, tema mds relacionado con la utilizacidn de 
examenes. De hecho, la mayon'a de nosotros hemos aprendido en algiin momento 
la mdxima “para ser vdlida, una calificacidn ha de ser fiable”. Cuando se nos pide 
recorder este tema, muchos de nosotros no estamos seguros si es que la fiabilidad 




1-04 



97 



CUIA PRACTICA PARA UNA EVALUACi6N ALTERNATIVA 



precede a la validez o viceversa. Quiza la manera mds facil de recordar este orden 
seria acord^dose de que si una calificacidn va a ser valiosa (validez) para la toma 
de decisiones ha de ser factible (fiable). 



La validez: La exactitud de las conclusiones basadas en examenes 

Los especialistas de medicion saben que aunque la fiabilidad es necesaria, no es 
condicion suficiente para la validez— en otras palabras, si el resultado de un 
examen da lugar a conclusiones exactas sobre el rendimiento de un alumno y es, 
por consiguiente, una buena base para la toma de decisiones. El resultado de un 
examen podria ser perfectamente fiable pero no relevante para la decisidn que se 
pretende tomar. Por presentar un ejemplo extremo, una prueba de mecanografla o 
de procesador de textos puede proporcionar informacion muy fiable (repetible y 
constante) para valorar las destrezas y la velocidad cuando se escribe a mdquina, 
pero estos resultados son inutiles en la toma de decisiones sobre la capacidad del 
alumno en la expresion escrita. Iguaimente, una prueba de multiplicar puede 
ofirecemos informacidn fiable acerca de las destrezas de computacion de los 
alumnos, pero seria poco util para determinar si saben resolver problemas. 

La determinacion de la validez de una evaluacidn depende de la forma en que 
se pretende utilizarla. A lo largo de este libro hemos utilizado im tanto libremente 
la palabra “validez”, como si fuera una calidad o caracteristica de un examen en 
particular. En realidad, las propias evaluaciones no son ni vdlidas ni invdlidas; su 
validez depende de los fines para los que las utilizamos. Evaluamos la validez de 
un examen determinando si una conclusion basada en la calificacidn dada al 
examen es apropiada para im objetivo en particular o no. Por ejemplo, si queremos 
utilizer los resultados de un examen para identificar a aquellos alumnos que 
dominan las ecuaciones lineales nos preguntaremos, ^Identifican las calificaciones 
recibidas a todos los alumnos que dominan las ecuaciones lineales? o ^Los alumnos 
que han sido identificados como alumnos que necesitan a5mda la necesitan 
realmente? Para ser mas precisos, cuando hablamos de la validez del examen en la 
identificacion de alumnos que dominan ecuaciones lineales, en realidad estamos 
haciendo referencia a la evidencia que tenemos que nos indica que nuestras 
conclusiones basadas en la calificacion son correctas, que los alumnos que obtienen 
un aprobado, o mas, realmente dominan el contenido. Pocas son las razones que 
tenemos para utilizar resultados y puede que haya poca seguridad al hacerlo hasta 
que tengamos evidencias que lo corroboren, como por ejemplo el rendimiento del 
alumno en trabajos posteriores, el rendimiento en evaluaciones parecidas, la 
observacidn de maestros y otras decisiones de maestros que apoyen nuestras 
conclusiones basadas en calificaciones. 

Puesto que seria bastante molesto repetir esta definicidn tan precisa, a 
continuacion utilizaremos "validez” para “la evidencia que respalda las inferencias 
basadas en la calificacidn”. Conforme se lee, se debe tener en mente la definicion 
mas exacta. 
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Hay que recordar tambien que las evaluaciones pueden ser vdlidas para algunos 
objetivos pero poco apropiadas para otros. Por ejemplo, un examen diagndstico de 
las destrezas b^icas proporciona comparaciones de gran utilidad con una muestra 
nacional, pero puede resultar relativamente imitil en la identificacidn del dominio 
de objetivos curricnlares locales. Los resultados de un examen final pueden ser 
vdlidos para decidir si un alumno debiera recibir una “A” o una “B’* en una clase, 
pero pueden no serlo en la identificacidn de aquellos alumnos que sacarfan mas 
provecho de una ensenanza acelerada o de aquellos alumnos especiales que 
podrian participar en el nuevo programa de alumnos superdotados. Lo que 
debemos concluir de ello es que si un examen presume de tener multiples usos, hay 
que acompanarlo de evidencias que apoyen cada uno de los usos. iQu6 tipo de 
evidencias son? El siguiente apartado proporciona lo que hay que tener en cuenta 
cuando se decide qu§ tipo de evidencias formales se querra considerar al utilizar 
evaluaciones para tomar decisiones sobre alumnos, clases o centros. 



^Como afectan el contexto de las decisiones y su utilizacion 
intencionada a las cuestiones de calidad? 



Conocer la finalidad de la evaluacidn 

Las evaluaciones se disenan con el fin de proporcionar informacidn para la toma 
de decisiones acerca de alumnos, clases, centros, distritos, estados y objetivos 
educativos nacionales. iCudl es la finalidad de su evaluacion? qu6 publico van 
dirigidos los resultados? iQue otra informacidn utilizard estos piiblicos para sacar 
conclusiones o para tomar decisiones? Las respuestas a estas preguntas tienen 
implicaciones serias en lo que se refiere al contenido que se debe incluir en una 
evaluacidn, c6mo debe realizarse y cudnta atencidn se debe prestar a asegurar su 
calidad. 



importancia de las consecuencias 

Es evidente que algunas decisiones sobre alumnos y centros conllevan 
consecuencias m^ graves que otras. Los examenes trascendentales conllevan 
consecuenciEis importantes. Las evaluaciones no trascendentales tienen un impacto 
menor en los individuos. Estas incluyen evaluaciones que se utilizan para la 
monitorizacidn del progreso, programacion la ensenanza, e incluso para calificar 
cursos determinados (si se va a utilizar una variedad de notas y otras evidencias 
para sacar la nota final). Cuanto m^ trascendental es la evaluacidn, mayor es la 
necesidad de documentar su calidad — su validez y fiabilidad. 
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Recopiladon de evidendas que corroboran la toma de dedsiones 

Incluso en situaciones no trascendentales, se puede cometer errores que causen 
mucho dano. La acumulacidn de exdmenes por tema y otras evaluaciones llevadas 
a cabo en el aula envian importantes mensajes a los alumnos y a los padres, y 
pueden tener un impacto significative en ellos. De igual manera, las valoraciones 
informales de la call dad escolar basadas en resultados de evaluaciones pueden 
afectar a la moral asi como a las actividades del cuerpo docente con el paso del 
tiempo. Por consiguiente, la validez necesita de nuestra atencidn sin tener en 
cuenta si el contexto de la evaluacidn es trascendental o no. 

Si identificamos puntualmente si la evaluacidn es o no trascendental nos 
ayudard a determinar cudntas evidendas necesitamos para documentar la calidad 
de la evaluacidn. ^Cuales son las consecuencias del rendimiento en el examen? ^Se 
van a utilizar los resultados de la evaluacidn junto con otra gran cantidad de 
informacidn corroborante para tomar dedsiones acerca de los alumnos? ^Sera 6sta 
practicamente la unica base para una decision? ^Si una decisidn basada en la 
calificacidn es incorrecta, se puede corregir? ^Puede estar sujeta a una demanda? Si 
una evaluacidn conlleva consecuencias importantes como lo hacen casi todas 
aquellas utilizadas para la responsabilidad adjudicada o rendir cuentas 
(accountability), la adjudicacidn de plazas, o financiamiento, es imprescindible 
tener evidendas formales de validez para los objetivos establecidos. 



Pruebas de validez: ^Como se sabe si una evaluacion nos 
proporciona buena informacion? 

A lo largo de este libro se ha tratado asuntos relacionados con la validez de la 
evaluaddn, por lo que algunos de los temas que vamos a destacar a continuacidn 
resultardn familiares. Evidentemente, la calidad o validez de una evaluacidn con un 
fin determinado depende de varies puntos y requiere que se tome en cuenta una 
serie de evidencias. Aquellos que estdn interesados en obtener mds detalles 
t^cnicos y en t^cnicas para recopilar evidencias corroborantes quizds les interese 
consultar Standards for Educational and Psychological Tests (1985). Los criterios 
descritos en este trabajo sirven como piedra de toque para la calidad de exdmenes 
cada vez que se cuestione una evaluacidn en un juicio. Seguirlos de cerca nos 
proporciona la seguridad de que se pueda defender en caso de litigio cualquier 
evaluacidn que se utilice. 
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;Pueden utilizarse las calificadones para describir lo que los alumnos 
nan aprendido? 

Unos de los primeros fines de la evaluacidn es el de averiguar lo que los alumnos 
saben o ban aprendido con respecto a determinados objetivos diddcticos. La 
validez para tal proposito requiere que exista una buena relacidn entre estos 
objetivos y el contenido de.la evaluacion. Las siguientes preguntas a)aidardn a 
decidir si existe tal relacidn: 

■ ^Va el examen acompafiado de ima clara definicidn de los objetivos de la 
evaluacion de manera que se pueda valorar la relacidn entre las destrezas 
y los conocimientos que se pretende evaluar, y aquellos enfatizados en la 
clase o en el centre? 

■ ^Refleja el contenido de la evaluacidn el contenido m4s importante y 
complete del cuiriculo? ^Existe una buena relacidn entre la descripcion de 
la tarea y las prioridades diddcticas? 

■ ^Las tareas de evaluacidn requieren el tipo de conocimientos, 
razonamiento, resolucidn de problemas y destrezas de procesos que se 
incluyen en la ensenanza? 

■ ^Explota la evaluacion las destrezas de razonamiento complejo? iCu^es? 

■ ^Incluye la evaluacidn criterios de calificacion? Si es asi, ^corresponden 
estos criterios a los objetivos didacticos, las teorfas de aprendizaje actuales 
y las prioridades curriculares? 

■ ^Incluyen los criterios estdndares que valoren el nivel de rendimiento del 
alumno? Si es asi, ^c6mo se establecieron estos criterios? 

■ ^Es la tarea; desde el punto de vista del desarrollo del alumno, apropiada? 
^Refleja los procesos y objetivos apropiados para los alinnnos a los que estd 
dirigida? 

■ ^Han tenido los alinnnos la suficiente oportunidad para aprender lo que se 
incluye en la evaluacidn? 

Si las respuestas a estas preguntas son afirmativas, tendremos entonces evidencias 
de que los resultados de la evaluacidn nos conducird a conclusiones fiables acerca 
de lo bien que los alumnos ban logrado los objetivos educativos, al igual que lo 
eficaz que ba sido la ensenanza. 

Si deseamos mds evidencias de la validez de un examen en estas dimensiones, 
podemos pedir a un colega que nos revise la evaluacion y que se plantee las mismas 
preguntas, o bien preguntas menos especificas como pueden ser las siguientes: 

1. iQud es lo que en su opinidn mide esta evaluacidn? 

2. iQud es lo que esta evaluacidn, con respecto a mis objetivos, me va a decir 
sobre mis alinnnos? ^Sobre los niveles de rendimiento de nuestro centro 
educativo? ^Sobre las metas importantes de los alinnnos? ^Sobre los 
puntos fuertes y debiles de los alumnos? 
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3. ^Es este tipo de evaluacidn la que usted hubiera pensado para evaluar sus 
objetivos? 

4. ^Como seria una respuesta tipica a esta evaluacion? 

Se obtendrdn evidencias aiin m4s formales si se convoca a un equipo de expertos 
en la materia y se le pide que valore la evaluacidn segiin los criterios de 
correspondencia curricular. Cuando se trata de un examen trascendental, como por 
ejemplo im examen a nivel estatal, bay que obtener este tipo de evidencias. 

A1 analizar la validez de la evaluacidn en estas ^as, bay que estar conscientes 
de los Ifmites de la validez aparente. Aunque pueda parecer que la tarea evalue los 
objetivos deseados, no podemos estar completamente seguros de lo que estamos 
midiendo basta que veamos las propias respuestas de los alumnos. ^Cu41es son los 
conocimientos y destrezas que los alumnos emplean en esta evaluacidn? La linica 
manera de saber si la evaluacidn realmente evalua los objetivos previstos por medio 
de la recopilacion de datos que corroboren la nota dada. Se puede obtener estos 
datos por medio de la observacidn, el analisis cuidadoso del rendimiento del 
alumno, o pidiendo a los alumnos que nos informen sobre las destrezas y 
conocimientos que utilizaron al bacer la tarea de evaluacion. Por ejemplo, si la tarea 
se ba disenado para valorar la babilidad del alumno para relacionar la personalidad 
de Hamlet con otros personajes bistdricos, no se podra estar seguro si las respuestas 
reflejan un razonamiento critico y la utilizacion de conceptos en nuevos contextos. 
Para poder averiguar si la evaluacion produce resultados validos, es necesario 
asegurarse de que los alunmos no bayan preparado o memorizado respuestas, no 
bayan utilizado determinadas obras criticas publicadas sobre Hamlet, o que con 
anterioridad bayan respondido a esta pregunta. 

Una vez que bayamos determinado que la evaluacion refleja los objetivos 
previstos, podemos pasar a la importante cuestidn sobre basta que pimto refleja la 
calificacidn obtenida el logro de un alumno. 



jSon las calificadones obtenidas validas como para generalizar sobre un 
alumno? 

Una cuestidn importante al determinar la validez de las evaluaciones de 
rendimiento de cualquier tipo es saber si se puede generalizar sobre el rendimiento 
de un alumno a partir de una tarea determinada. Despu6s de todo, ensenamos con 
el fin de transferir informacidn. Queremos que nuestros alumnos tengan 
conocimientos y destrezas duraderos. Por ello, esperamos y muchas veces damos 
por sentado, que el rendimiento del alumno en nuestras tareas evaluativas puede 
generalizarse a un dominio mayor y que los resultados de una evaluacion 
representan la forma en la que el alunmo se va a desempenar en un conjunfo mds 
amplio de tareas. Despuds de todo, cuando damos un examen prdctico de ciencias 
naturales a los alunmos en el que utilizan gusanos de seda, probablemente no nos 
imports tanto si los alunmos son capaces de llevar a cabo este experimento en 
concrete con gusanos de seda como sus destrezas en utilizar el mdtodo cientifico. 
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La cuesti6n de transferencia y generalizabilidad parece ser un tema 
problemdtico en la evaluacidn altemativa, donde el tiempo disponible restringe el 
niimero de tareas que pueden realizar los alLimnos. tareas, destrezas, 

contenido y rendimientos hay que incluir en una evaluacion para asegurarse de que 
se pueden aplicar a un dominio superior? ^Cuantas muestras de rendimiento del 
alumno necesitamos antes de poder hacer estas generalizaciones? No lo sabemos 
con precisidn, pero la respuesta, desgraciadamente, no es s61o una. ■ 

Por ejemplo, Herman (1991) examind la investigacidn sobre la evaluacion de la 
expresion escrita y descubrid que la destreza de escribir no se puede generalizar a 
los distintos gdneros. Para ser mds especfficos, aquellos alumnos que escriben 
buenas redacciones persuasivas no tienen por qud saber escribir buenos cuentos o 
buenos comentarios literarios. Ademds, incluso dentro del mismo gdnero, el 
rendimiento de un alumno puede variar bastante segiin el tema o estfmulo; Estos 
descubrimientos sugieren que a pesar de la validez intuitiva de las tareas y de hasta 
qud punto dstas ocupan de manera significativas a los alumnos, las evaluacioiies 
altemativas no conducen necesariamehte a inferencias mds validas sobre dominios 
superiores de rendimiento. En otras palabras, parece que hay un equilibrio entre la 
profundidad y la amplitud de la informacidn que proporciona tales evaluaciones. 

^Cdmo sabemos si los resultados obtenidos en la evaluacion de un alumno 
representan un . dominio significativo superior de rendimiento? Recopilamos 
evidencias sobre la generalizabihdad averiguando la constancia del rendimiento 
del alumno en varies tareas que estdn disenadas para evaluar los mismos 
conocimientos, destrezas y disposiciones. Tdcnicamente hablando, podemos llevar 
a cabo andlisis estadfsticos especiales que cualifiquen la relacidn entre el 
rendimiento de una tarea y otra, utilizando luego. las reglas de decisiones para 
determinados controles estadfsticos y asi decidir si deberiamos confiar en los 
resultados. Aunque este tipo de andlisis no cabe dentro de este estudio, hay que 
estar conscientes de que en situaciones trascendentales en las que se utilicen 
exdmenes formales se requerirdn pruebas estadfsticas. Se debe presenter datos 
formales para poder contestar la pregunta: “^Basdndome s61o en esta tarea, hasta 
qud punto es mi decisidn sobre un alumno acertada?” O, aun mds util seria la 
pregimta “j^Cudntas tareas parecidas a dstas tiene que realizar un alumno para yo 
poder tomar una decisidn con un mmimo de exactitud?” 

A1 reconocer que no es prdctico llevar a cabo andlisis estadfsticos complejos 
para la mayona de las evaluaciones efectuadas en el aula, todavfa podemos mejorar 
la validez de nuestras conclusiones sobre los alumnos utilizando todas las 
observaciones o muestras de trabajos posibles antes de hacer generalizaciones o 
sacar conclusiones sobre la capacidad de rendimiento de un alumno. 
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jSejpuecien utilizar las calificaciones para diagnosticar los puntos fuertes 
y dwiles de los alumnos? 

^Se pueden utilizar las calificaciones para diagnosticar los puntos fuertes y d^biles 
del currfculo? Otra cuestidn sobre la validez que es fundamental en la utilizacidn 
de evaluaciones en el aula y en el centro educativo es su utilidad diagndstica. ^Nos 
dicen los resultados algo significativo sobre porqu6 los aluiimos ban rendido de tal 
manera? 

Si deseamos utilizar las calificaciones para diagnosticar los puntos fuertes y 
debiles de los alumnos, las tareas y los criterios de calificacidn deben basarse en 
una teorfa de aprendizaje sobre la adquisicidn de destrezas o conocimientos con 
credibilidad. Veamos lo que pasa cuando una supuesta calificacidn “diagndstica” 
no concuerda con la teorfa en cuesdon. Recientemente, si la expresidn escrita de un 
alumno se consideraba insuficiente, los maestros se centraban en la ensenanza de 
las destrezas necesarias como son la gramdtica, la t^cnica y la estructura de 
pdrrafos. La investigacidn sobre el proceso de escribir desacredita este m^todo de 
destrezas aisladas al igual que el valor diagndstico de contar los errores gramaticales 
y tecnicos como indicadores de calidad de escritura (Braddock et al. 1963, Elley et 
al. 1976). Podemos citar un ejemplo analogo en el 4rea de matemdticas. Si bien es 
verdad que la automaticidad de calcular ayuda a los alumnos con las matemdticas, 
puede ser que el dominio de fracciones, decimales y divisiones no a}nide al 
rendimiento del alumno con el algebra. En resumen, los tests diagndsticos 
prealgebra que se exige a la mayorfa de los alumnos de octavo grado de este pafs 
est4n basados en teorfas deficientes sobre la agilidad algebraica, Estos ejemplos 
ilustran el gran reto que existe en la creacidn de evaluaciones diagndsticas al igual 
que ilustran la cautela que debemos tomar al buscar informacidn diagndstica en 
nuestras propias evaluaciones. 

En capftulos anteriores destacamos la necesidad de coordinar las descripciones 
de tareas y criterios con las teorfas actuates de currfculo y aprendizaje. Esta base 
teorica tambi^n proporciona una relacidn entre los resultados deseados y los 
requisitos necesarios. Una evaluacidn valida desde el pimto de vista diagndstico es 
prueba de un cuerpo de investigacion que respalda la unidn entre determinadas 
calificaciones diagndsticas y la teorfa subyacente. 



eEs objetiva la calificacion dada? 

Otra cuestidn fundamental sobre la validez de la evaluacidn del aula y del centro 
educativo es la de ser justo y objetivo. La teorfa reciente de aprendizaje cognitive 
destaca la importancia de los conocimientos previos cuando se resuelve problemas. 
Es evidente que alunmos de distintos entomos socioecondmicos, culturales y 
lingiifsticos pueden tener distintos tipos de conocimientos y experiencia previos. 
^Tienen los almnnos suficientes conocimientos previos para tener dxito en la tarea 
de evaluacidn? ^E1 contenido o contexto de la evaluacidn da injustamente ventaja 
o desventaja a ninos de distintos grupos culturales o lingiifsticos? ^Es igual de 
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significativa y motivadora para alumnos de distintos entornos culturales? 
^Contiene la evaluacidn material o estereotipos que son culturalmente 
inapropiados? Las respuestas a preguntas como 6stas proporcionan una linea de 
evidencia acerca de la objetividad o parcialidad de las evaluaciones. 

Se puede disminuir los problemas que causan las diferencias de conocimientos 
previos si estamos seguros de que todos los alumnos en el centro tienen a sus 
alcance suficientes oportunidades para adquirir los conocimientos y destrezas que 
se requieren. Los maestros deben asegurarse de que lo que se estd midiendo ha sido 
ensenado y que los alumnos han tenido la oportunidad de aprender el contenido 
relevante, y de aplicar los procesos deseados. Muchas autoridades educativas 
opinan que, en situaciones de evaluaciones trascendentales, se debe buscar 
regularmente evidencias de que se brinden suficientes oportunidades para 
aprender. Queremos aseguramos de que todos los alumnos al menos han gozado de 
las mismas oportunidades para aprender. 

Se puede efectuar una variedad de andlisis estadisticos que examinen la 
parcialidad potencial. Esencialmente, estos andlisis buscan el rendimiento 
diferencial entre los subgrupos, teniendo en cuenta varios factores. Aunque pocos 
son los maestros o practicantes de ensenanza que tienen que llevar a cabo andlisis 
de este tipo, deberian estar conscientes de la existencia de estos andlisis, los cuales 
debieran estar disponibles para su aplicacidn en los ex^menes fprmales de gran 
trascendencia. 



evidencias que corroboren que la evaluacion cumple los objetivos 
previstos? 

Como ya debe ser evidente a estas alturas, demostrar que una evaluacidn es vdlida 
para un objetivo requiere la recopilacidn de datos especificos para demostrar la 
relacidn entre los resultados de la evaluacidn y ese objetivo. En el caso de ex^enes 
formales de gran trascendencia, esto quiere decir que debiera haber estudios 
especificos para investigar el significado de las calificaciones correspondientes a 
estos ex^enes (Shepard 1991). For ejemplo, si se utilize los resultados de una 
evaluacidn estatal de carpetas de trabajo de matemdticas para identificar los puntos 
fuertes y d^biles de un centro educativo, el programa de evaluacidn estatal necesita 
recopilar evidencias de que se puedan utilizar las calificaciones de esta manera. O, 
si afirmamos que la carpeta de trabajo, exposicion o tesis de alumnos de cursos 
superiores demuestran un razonamiento critico y, habilidades de expresidn, asf 
como un dominio de cierto contenido, necesitamos evidencias independientes que 
corroboren esta interpretacidn de la calificacidn. Igualmente, si utilizamos los 
resultados de una evaluacidn para decidir quien puede matricularse en la 
asignatura de dlgebra, necesitamos evidencias independientes de la relacion entre 
el contenido del examen, la agilidad algebraica y el rendimiento durante el curso. 
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^Tiene la evaluation consecuencias positivas para el aprendizaje y la 
ensenanza? 

La actual polemica sobre los exdmenes tradicionales estandarizados nos debiera 
ensenar una importante leccion: tenemos que vigilar las consecuencias de una 
evaluacidn. Las buenas intenciones no aseguran resultados positivos. La intencion 
de accountability basada en exdmenes fue la de ayudar a mejorar a los centros 
educativos y su nivel de eficacia con los alumnos, Para muchos, una excesiva 
dependencia en los exdmenes tipo test ha danado el proceso educative y se ha 
alejado de la ensenanza y del aprendizaje significative. 

Queremos aseguramos de que nuestras nuevas evaluaciones ayuden y no 
perjudiquen a los centros educativos, y a sus miembros, Para los programas de 
evaluacion obligatorios y trascendentales, esto implica una continua atencion a los 
efectos de los programas y a los estudios formal es para evaluar sus consecuencias 
en el curriculo, ensenanza, aprendizaje del alumno, entre otras consecuencias 
intencionadas o no. Para un maestro en el aula, implica una mayor atencion a las 
consecuencias de la evaluacidn, por ejemplo: 

■ iQue valores se ven implicados en la evaluacion? ^Fomenta un 
razonamiento cuidadoso y la precision en lugar de la impulsividad? 
iSoluciones multiples en lugar de una unica respuesta? ^Respeta la 
diversidad? 

■ ^Estd bien empleado el tiempo que alumnos y maestros dedican a la 
preparacion de esta evaluacion? 

■ ^Merecen la pena los objetivos? ^Se mantiene a los alumnos en un nivel 
alto? iRequiere la tarea la utilizacidn compleja, rica y desafiante de la 
mente de los alumnos? 

■ ^Resultan las tareas autenticas y significativas para los alumnos? ^Pueden 
ver los alumnos los vinculos con la vida real? 



Repetition: Asegurar la fiabilidad y la validez 

Una vez mds, queremos tener confianza en la calidad de una evaluacion antes de 
utilizarla. El cuadro 7,1 resume algunas de las estrategias que se tratan en este y en 
anteriores capitulos que contribuyen a tener esta confianza 



{Como podemos utilizar los resultados de la evaluacion para 
mejorar la ensenanza? 



Aunque el camino hasta llegar aqui ha sido dificil, por fin hemos llegado con 
evaluaciones de alta calidad, apropiadas a los fines prefijados. ^C6mo las 
utilizaremos? La mayoria de las veces utilizaremos los resultados de evaluaciones 
para contestar dos preguntas fundamentales: 



113 



1.06 



UTILIZAC|6n DE la EVALUAC|6n ALTERNATIVA para la TOMA DE DECISIQNES 



Cuadro 7.1 

Asegurar la fiabilidad y la validez en las evaluaciones alternativas 



Etapa en el diseno 
del examen 


Estrategias para asegurar inferencias de una calificadon valida 


Identificacion de los 
objetivos de ta 
evaluacion 


• Uni r las metas con objetivos curricu lares importantes 
relacionados con contenido, destrezas, procesos transfer! bles 
o fundamentales 

• Crear enunciados claros y sin ambigiiedades sobre las metas 


Creadon de 
descripdones de 
tareas 


• Crear descripciones de tareas totalmente desarrolladas 

• Comparar descripcion de tarea y metas 


Selecdon/diseno 
de criterios 


• Comparar criterios con metas y teorfa subyacente de 
aprendizaje didactico o curricular 

• Asegurar que los criterios reflejen metas que se pueden 
ensenar 

• Asegurar que los criterios no favorezcan un determ inado sexo, 
origen etnico, entorno lingufstico 


Rendimientos/ 
produ ctos/procesos 
y la calificadon 


• En el aula: calificar sistematicamente y revisar el trabajo con 
regularidad 

• Calificar a la vez temas y dimensiones parecidos 

• Uso a gran escala: formar a los calificadores, vigilar y 
controlar la constancia 

• Documentar los varios tipos de fiabilidad (entre calificadores, 
del mismo calificador, segun los temas, segun el contexto, 
con el paso del tiempo para los alumnos) 

• Asegurar niveles mfnimos de "fiabilidad" (del tipo adecuado) y' 
un coeficiente de fiabilidad de al menos .70 para la mayorfa 
de las evaluaciones, .90 para examenes trascendentales 


Utilizadon de 

evaluaciones 

alternativas 


• Limitar las inferencias basadas en calificaciones al uso para el 
que fue disenada la evaluacion o para el que se encuentran 
multiples fuentes de evidencias que determinan que se puede 
utilizar la calificadon de una manera determinada 

• Buscar evidencias en el manual de la evaluacion, en trabajos 
de investigacion, en los colegas que apoyen las inferencias 
basadas en calificaciones 

• Comprobar inferencias basadas en calificaciones con otro tipo 
de informacion, con su experiencia previa, otras 
calificaciones, otro trabajo del alumno, observacjones 

• No tomar jamas una decision importante basada solo en una 
calificadon 
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d i,Que tal vamos? 
d ^C6mo podemos mejorar? 

Intentamos contestar estas preguntas a muchos niveles, desde respuestas sobre 
alumnos individuales a otras sobre el centro educativo, el distrito escolar, el estado 
o incluso la nacion. Por ejemplo, a un nivel individual: iQu6 tal va Kang en 
matemdticas? Y segiin nuestra respuesta, ^c6mo podemos a)nidarle a mejorar? 
^C6mo va Clarissa en ciencias? de que nos sirve la respuesta para saber que 
asignaturas le van a beneficiar mds el prdximo ano? O a un nivel de clase, ^que tal 
les fue a mis alumnos en las pruebas orales? iQu6 me dice la respuesta sobre los 
puntos fuertes y debiles de mi diddctica en esta drea? ^Necesita una parte de la clase 
o su totalidad clases de recuperacion? O a nivel de escuela, ^qu6 tal le fue al quinto 
grado en las distintas pruebas de expresion escrita? iQu6 sugieren los resultados de 
este analisis con referenda a los puntos debiles de nuestro curriculo y materiales 
didacticos? 

En los siguientes apartados analizamos los mdodos basicos para poder 
contestar cada una de estas conocidas preguntas. 



Establecer estandares 

En la pregunta “^que tal vamos?” est^ implfcitas cuestiones de calidad y 
estdndares. No s61o queremos saber c6mo les va a los alumnos, sino lo que aun es 
mas importante, ^est^ los alumnos logrando los objetivos previstos? ^Esdn 
haciendolo bien? ^Lo estdn haciendo tan bien como esperdbamos? En pocas 
palabras, “^lo estamos haciendo bien, o al menos aceptablemente?” 

^Como decidimos la respuesta a este tipo de preguntas? Lo ideal, al formular los 
criterios de calificacidn, es tomar en cuenta los niveles de rendimiento. Por ejemplo 
decidimos que un “5” equivalia a un sobresaliente y un “3” a un simple aprobado. 
Si este fuera el caso, se puede responder a la pregunta de “icdmo vamos?” 
consultando los estdndares en los criterios de calificacion. Si los criterios son 
descriptivos y no incluyen niveles de rendimiento, es el momento de atribuir 
calificaciones especfficas a est^dares de rendimiento. Hay dos tipos basicos de 
estdndares o comparaciones: absolutes y relatives. Los absolutes prevalecen 
cuando decidimos qu6 tanto est^ rindiendo los alumnos al consultar algun criterio 
de rendimiento satisfactorio. A veces este criterio lo establece oficialmente un 
centro educativo o distrito; otras veces es un est^dar basado en la disciplina. Los 
maestros de matemdticas est^ de acuerdo en lo que se debe incluir en las 
respuestas a ejercicios matemdticos. Los de lengua inglesa coinciden en los 
est^dares de lo que constituye un resumen bien escrito. Los maestros de ciencias 
sociales saben qu6 evidencia es aceptable al respaldar una postura polftica. 
Utilizamos estos est^dares cuando contestamos preguntas como: ^fue capaz 



eQue tal vamos? 
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Leticia de escribir iin buen trabajo de investigacion? ^Fue Judd capaz de calcular 
los costes de abrir im restaurante? 

Podemos utilizer tambien estdn dares relatives para evaluar hasta qu6 pimto los 
alumnos estdn rindiendo bien. Los estdndares relatives son siempre aquellos que 
comparan los rendimientos de nuestros alumnos con otros grupos de alumnos. 
Comparar alumnos con la norma nacional [por ejemplo, la calificacion en el 50 
percentil lograda por ima muestra nacional de alumnos) es im ejemplo corriente de 
un estdndar relative. Los maestros con experiencia normalmente comparan a sus 
alumnos con otros grupos que conocen bien cuando evaluan el rendimiento. 
Pueden tener una idea bastante buena del rendimiento a nivel de ciirso y de la 
conducta tipica de alumnos basdndose en la de clases anteriores, o comparando con 
las clases de sus colegas, o incluso con los resultados de dates de evaluaciones 
estatales y nacionales. Los estdndares relatives nos a)oidan a contestar preguntas 
como: ^ayudaron los nuevos materiales a que los alumnos mejorasen de algima 
manera con respecto al ano pasado? ^Se estdn desarrollando las destrezas de 
alfabetizacidn de John a im ritmo aceptable comparado con las normas de 
desarrollo? ^Los alumnos del currfculo interdisciplinario se estdn desempenando 
tan bien o mejor que los del currfculo normal? Si vamos a asignar ima calificacion, 
utilizamos muchas veces estdndares relatives cuando comparamos el rendimiento 
actual con anteriores niveles de rendimiento de otros alumnos. 

Si bien son utiles en ciertas ocasiones, los estandares relatives tienen graves 
limitaciones. Su valor se ve limitado por la semejanza entre los grupos que se estdn 
comparando. Por ejemplo, serfa injusto e inapropiado comparar el rendimiento de 
alumnos de educacion especial basado en im test estandarizado con aqu61 de un 
grupo tfpico de norma nacional de la que la mayorfa de los alumnos de educacion 
especial ban sido excluidos. De la misma manera, el ranking de pafses en 
comparaciones de ex^menes intemacionales para poder sacar conclusiones sobre 
la calidad del sistema educative de un pafs son enganosas cuando diversos tipos y 
porcentajes de alumnos se presentan al examen en los distintos pafses. Las 
calificaciones medias de una evaluacidn intemacional se sac6 del 75% de los 
alumnos con 17 anos de edad en los Estados Unidos, pero s61o del 9% mds alto de 
los alumnos de 17 anos de edad en Alemania y del 45% mds alto en Suecia. 

En este apartado tambidn hay que anadir algo sobre otro tipo de estdndar 
relative — la prdctica de *‘pimtuar en curva”, segiin la cual los maestros deciden 
desde un principio que los mejores alumnos recibirdn ima A, que los que estdn en 
medio una B, y los que estdn por debajo de dstos una C o D sin mds definicidn sobre 
qud rendimiento se espera para cada calificacion. Este tipo de estdndar relative 
simplemente clasifica a los alumnos. El problema es que aunque Kenny y Leila 
saquen una nota mds alta que los demds y reciban una A, es posible que no hayan 
aprendido lo suficiente del contenido o que no sean capaces de rendir lo 
suficientemente bien para merecerse una A segiin un estdndar absolute de calidad 
de rendimiento. De igual manera, si el maestro y los materiales son suficientemente 
buenos, la clase entera podrfa ser capaz de trabajar muy bien y merecer una A. Lo 
importante es que mientras los estandares relatives tienen un lugar propio, el valor 
de los estdndares absolutes se pasa muchas veces por alto. Al decir a los alumnos 
que estamos puntuando en curva, se les hace pensar que basta tener un mejor 



CUIA PRACTICA PARA UNA EVALUAC|6n ALTERNATIVA 



rendimiento que otro, y que aquellos que est^ en el tercio inferior son mediocres, 
sin tener en cuenta sus esfuerzos y los nuestros, o que los est^dares absolutes de 
lo que constituye un trabajo aceptable o excel ente no son importantes. 

Aplicar est^dares forma parte del proceso inconsciente que utilizamos para 
hacer valoraciones. Tanto los est^dares absolutes come los relatives representan 
m^todos utiles para determinar el nivel de rendimiento de los alumnos. De hecho, 
los estdndares absolutes muchas veces incorporan informacidn relativa. ^C6mo 
sabemos que los alumnos tienen que tener un 80% del examen de practicas de 
laboratorio correcto para destacar en qufmica? Porque a partir de nuestra 
experiencia, hemos comprobado que los mejores alumnos ban sacado al menos un 
80% en el examen de prcicticas de laboratorio de ciencias. En la mayoria de los 
cases, contestaremos a la pregunta de “c6mo vamos” consultando tanto los 
estdndares absolutes como los apropiados grupos de referenda. 



La utilization de resultados de examenes para la toma de decisiones 

Una vez que se ha decidido comparar el rendimiento de alumnos con est^dares 
absolutes o relatives, podemos optar entre varias tecnicas para resumir los 
resultados de la evaluacidn. A la vez que utilizamos estos metodos para resumir, 
hay que tener en cuenta que hay aun mucho mas sobre el rendimiento del alumno 
que no nos revela la calificacidn. Cualquier forma de resumir produce im equilibrio 
entre la brevedad y la descripcidn detallada. A nuestro juicio la informacidn 
descrip tiva proporcionada por las evaluaciones altemativas constituye uno de sus 
atributos mds atractivos. Sin embargo, habrd ocasiones cuando necesitaremos 
comunicar numericamente los resultados. Hay tres formas bdsicas de presenter los 
niimeros. Se puede presenter como una distribucidn de notes; dando la nota media, 
el medio o el modo; o mostrando el porcentaje de alumnos que ha alcanzado algun 
estdndar absolute. 

La forma que utilizamos para resumir depende de los tipos de comparaciones 
que queremos hacer y si los criterios de calificacidn incluyen solo una dimensidn 
(escala) o varias. 
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Resumir una unica dimension 

Consideremos en primer lugar a un caso simple, im sistema de calificacidn integral 
o de dimension linica. 



La distribucion de notas 

Para ver la gama del rendimiento de los alumnos en una unica dimensidn, es 
necesario calcular simplemente cudntos alumnos recibieron cada nota posible. Se 
puede incluso dibujar la distribucion de notas, utilizando ya sea el numero o el 
porcentaje en bruto de alumnos que obtiene cada nota. Una representacidn del 
rendimiento de una clase, como por ejemplo la del cuadro 7.2, nos muestra si la 
mayorla de los alumnos sacan notas altas, bajas o notas medias. Esto puede ser de 
gran ayuda cuando no tenemos una idea preconcebida de c6mo van a rendir los 
iumnos. Se puede utilizar tales grdficos para la monitorizacidn de c6mo lo 
hacemos con alumnos de un ano a otro. Los investigadores llaman a la medida 
inicial “informacidn de fondo”. 

El cuadro 7.3 ilustra la distribucidn del rendimiento (en una escala) en dos 
temas distintos de historia que CRESST ha utilizado en su investigacidn. Obsdrvese 
que el grdfico muestra que hubo mds alumnos que sacaron notas altas (de 3,5 a 5) 
en el tema de la inmigracidn que en el de Lincoln-Douglas. iQud podria sugerimos 
este tipo de informacion sobre la fuerza relativa de ensehanza en estas dos dreas? 

Nota media. Otra forma de averiguar c6mo van los alumnos es calcular escalas 
numericas resumidas del rendimiento de la clase utilizando el promedio (la media 
aritmdtica), el medio (la mitad que estd por encima y la que estd por debajo), o el 
modo (la nota mds firecuente). Estas escalas nos muestran cdmo va la mayoria de los 
alumnos. Constituyen un cddigo util para comunicarse con otros. 

Si un colega nos pregunta qud tal van los alumnos con las ecuaciones de 
oxidacidn-reduccion, podemos recurrir a la estadistica para contestarle “En una 
escala de 8 puntos, la media es de 6,8”. Nuestro colega podra entonces apreciar 
ddnde se agrupa la mayoria de los alumnos y comparar este rendimiento con su 
propia clase, con los alumnos del aho pasado o con lo que entiende sea capaz de 
hacer un alumno que se encuentra en la media de “6,8”. 

Nivel y porcentaje. Si utilizamos un estdndar absolute podemos decidir qud 
calificacidn representa el dominio o quizds podemos utilizar un estdndar doble de 
rendimiento satisfactorio y ejemplar. Por ejemplo, en una escala de 5 puntos, im 3 
puede representar el dominio en el primer sistema. En el sistema doble, un 3 puede 
representar un rendimiento satisfactorio y im 4 o mds puede ser necesario para 
alcanzar el nivel de rendimiento ejemplar. Por consiguiente, podemos encontrar 
que un 10% de nuestros alumnos lograron un 4 o mds alcanzando el nivel de 
rendimiento ejemplar y que otro 50% de los alumnos obtuvo un 3, y alcanzd el 
nivel de rendimiento satisfactorio. Esto se puede representar en un diagrama pastel 
para ilustrar qud proporcidn de alumnos pertenece a cada categoria (vdase cuadro 
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Cuadro 7.2 

Distribucion de notas de alumnos 

Evaluadon de procedimientos practicos de biologia 





( 1 ) ( 0 ) 



Numero 

de 

alumnos 



X 

1 2 



(1) (1) (3) (5) 



X 

3 



X 

X 

X X 

4 5 



Notas posibles 



X 

X 

X 

X 

X 

6 



( 6 ) 

X 

X 

X 

X 

X 

X 

7 



(5) 

X 

X 

X 

X 

X 

8 



X = Cada alumno que obtiene una calificacion entre 1 y 8 



Cuadro 7.3 

Distribucion de las calificaciones de alumnos en ensayos 
sobre dos temas de historia 




Temas 

L Debates 

Lincoln-Douglas 

C La Inmigracion 
china 



Calificaci6n segun el baremo "Propord6n del ensayo basado en textos" 
Fuente: Baker et al. 1992 
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7.4). A1 igual que con las notas medias, los datos de dominio en porcentajes de un 
ano o grupo se pueden comparar con aquellos de otro ano o grupo. 

Tendencias con el paso del tiempo. Sin tomar en cuenta si se utilizan 
distribuciones, notas medias o porcentajes de almnnos que alcanzan un nivel de 
rendimiento, quizds se quiera seguir la tendencia del rendimiento del alumno con 
el paso del tiempo. Uno se puede preguntar “^Recibid la misma proporcidn de 
notas altas la clase de este ano que la del ano pasado?” “^La nota media de este ano 
fue superior o inferior de la del ano pasado?” “iQud proporcidn de alumnos del 
ultimo curso alcanzd este ano el nivel de rendimiento ejemplar en comparacidn con 
la del ano pasado?” Para un determinado aliunno nos podriamos preguntar, “iQue 
tal es la nota de Justin en esta redaccidn persuasiva comparada con las notas que 
sac6 en septiembre, noviembre y febrero?” Estas comparaciones longitudinales 
ayudan a poner en perspective el rendimiento de los actuales almnnos. 



Cuadro 7.4 

Porcentaje de alumnos que alcanzan estandares de rendimiento 



1990-91 
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Resumir varias dimensiones 

Si se tienen varias dimensiones de rendimiento para resumir, hay dos opciones: (1) 
se puede sumar todas las notas o sacar la media — ambos metodos dan la misma 
visidn global de lo que se hizo, o (2) se puede presenter por separado graficas, 
medias o porcentajes para cada dimension. 

Si se suman las notas o se saca la media, quiz4 se quiera dar mds peso a imas 
dimensiones que a otras en el caso de que sean m4s importantes para sus objetivos 
diddcticos. Por ejemplo, aimque se califique la expresion escrita segiin las 
convenciones gramaticales, el estilo y la coherencia, se puede decidir dar mds peso 
a la dimensidn de coherencia — ^por ejemplo, multiplicando estas calificaciones por 
1,5 6 2 — en comparacidn con la gramdtica y el estilo al presentar im resumen global 
del trabajo del alunmo. 

Hay un cierto “toma y daca” cuando sacamos la media o surnames los criterios 
multi dimensionales. Mientras nos hacemos una idea general del rendimiento, 
tenemos que estar conscientes de que las notas medias pueden esconder tipos de 
rendimiento muy diferentes. Por ejemplo, unos alumnos con una nota media de 7 
pueden tener destrezas muy buenas de representacion de problemas pero destrezas 
muy deficientes de resolucidn de problemas, mientras que otros aliunnos pueden 
sacar un 7 en todas las dimensiones. Si hace falta ver tales distinciones en los 
resultados para asi tomar decisiones diddcticas, quiz4 se quiera presentar por 
separado los resultados para cada dimension o para determinados baremos claves. 

Tambien nos podemos pregimtar “^que tal vamos?” con respecto a cada 
dimensidn. Por ejemplo, en mi tarea de evaluacidn de matemdticas me puedo 
preguntar ^que tal van mis alunmos en la comimicacidn, en la aplicacion de 
conceptos matemdticos o en la utilizacidn de fdrmulas? Una estrategia util para 
tratar los objetivos multidimensionales es la de observer la proporcidn de sub- 
baremos cuando el rendimiento fue suficiente o mas. En nuestros ejemplos de tres 
sub-baremos podremos resumir nuestros resultados averiguando que porcentaje de 
alunmos recibid ima calificacidn de suficiente o mds en una dimensidn, en dos y 
en las tres. El cuadro 7.5 proporciona un ejemplo de esta estrategia. 



Muestras de trabajos de alumnos 

Sin tener en cuenta el mdtodo que se elige para presentar las conclusiones — bien 
de una sola dimensidn, la media de varias dimensiones, o como ima recopilacidn 
de varias dimensiones distintas — y si se presentan o no las tendencias con el 
transcurso del tiempo, las muestras de trabajos de alunmos ayudan a ilustrar los 
resultados y a tomar decisiones. Los niimeros en si no nos dicen todo lo que 
necesitamos saber. No queremos reducir todo a niimeros y asi perder la riqueza de 
las respuestas de los alunmos. Aiin mas importante, no queremos perder de vista 
la calidad del rendimiento del alunmo y lo que significa im trabajo de calidad. 
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Cuadro 7.5 

Resumir los criterios multidimensionales 



Porcentaje de alumnos 
calificados con "suficiente 
o mas" en un sub-baremo 


Porcentaje calificado con 
"suficiente o mas" en dos 
sub-baremos 


Porcentaje calificado con 
"suficiente o mas" en tres 
sub-baremos 


100% 


67% 


35% 



Al considerar la pregunta “iqu6 tal vamos?” se podria seleccionar muestras de 
rendimiento que representen los mejores, los normales y los mds deficientes niveles 
de rendimiento. Estos modelos comuni can claramente a otros maestros, y muchas 
veces a los padres, la gama de rendimiento y donde quedarfan matriculados 
determinados alumnos. Si se archivan los mejores exdmenes o incluso modelos de 
exdmenes deficientes, normales, y extraordinarios, se puede observer c6mo 
progresa el nivel de rendimiento general para cada grupo. ^E1 informe excelente de 
practices de laboratorio que se hizo hace cinco anos nos parece hoy s61o regular? Si 
la respuesta es afirmativa, quiere decir que estamos haciendo bien nuestro trabajo. 
^E1 periddico que se hizo en grupo sobre “La vida de los romanos” de anos 
anteriores cuya calidad fue normal nos parece hoy excepcional al compararlo con 
los productos de hoy? Si es asf podemos concluir que nos queda trabajo por hacer. 
Las muestras de rendimiento pueden cumplir el mismo propdsito que los 
resiimenes numdricos cuando se toman decisiones informales para la clase. 



iComo podemos hacerlo mejor? 

En nuestra opinidn el primer objetivo de la evaluacidn es el de proporcionar 
retroalimentacidn para mejorar los logros de alumno individualmente, la diddctica 
del aula y los programas educativos. Si despuds de investigar resultados 
individuales y de grupo, averiguamos que no cumplimos los objetivos previstos, 
necesi tamos identificar unas estrategias para poder mejorar. La evaluacidn 
diagndstica identifica los tipos de cambios que se necesitan si esperamos mejorar 
teniendo en cuenta tanto los modelos como los procesos de rendimiento. 
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Entender los procedimientos del alumno 

Para que las evaluaciones altemativas puedan responder a la pregunta de “^c6mo 
podemos mejorar?'*, debemos incluir en nuestras tareas y criterios posibilidades de 
observacidn y documentacidn de los procedimientos de los alumnos asi como sus 
resultados. Si queremos saber c6mo ayudar a los alumnos a hacer mejores 
presentaciones en grupo, necesitamos resultados referentes a c6mo fueron 
planeadas las presentaciones, c6mo fueron asignados los roles y c6mo colaboraron 
los alumnos para realizar la tarea. La clave para establecer un diagndstico es 
entender las causas o precursores del rendimiento. Aunque nunca podremos estar 
completamente seguros de qu4 tipo de diddctica produce qu4 resultados, 
necesitamos tomar en consideracidn algunas conjeturas con base, o mejor dicho, 
con hipdtesis en c6mo se construye un rendimiento bueno o excelente. Para hacer 
esto, necesitamos saber como se produce un rendimiento especffico. 

Muchas veces se recopila informacidn diagndstica al margen de la evaluacidn 
de los resultados. La fuente mds rdpida y rica de informacidn de procesos es la de 
observer a los alumnos mientras llevan a cabo una tarea y, en momentos 
apropiados, interrumpirles individualmente de vez en cuando para preguntarles: 
^Qu6 has hecho para llegar a este punto? ^Por qu6 hiciste aquello? iQu6 podrias 
hacer ahora? Podemos incluso pedir a los alumnos que escriban en diarios sus 
reflexiones sobre su trabajo a lo largo del proceso; o quizes podemos caminar entre 
los alumnos mientras trabajan y apuntar notes breves de cara al futuro. Otras veces 
podemos tener con los alumnos sesiones en las que nos informen de su actividades 
y procesos para luego resumir los resultados en nuestros archives anecddticos. 

A nivel centre, se puede llevar a cabo la monitorizacidn de los procedimientos 
de los alumnos de varies formas: (1) observaciones formales en el aula, (2) 
grabacidn en video, (3) transcripcidn, (4) comentarios de los propios companeros, 
(5) charlas profesor-alumno, o incluso (6) andlisis de documentos, un 
procedimiento para la recopilacion y andlisis de elementos fundamentales del 
aula — programas, evaluaciones, muestras de planificaciones de clases, muestras de 
trabajos seleccionados de alumnos, y carpetas de maestros o alumnos. 

Podemos analizar esta informacidn de procesos buscando modelos de conducta 
y relacionarlos con los resultados. ^Los buenos alumnos se dirigian a la tarea de 
forma significativamente diferente a los alumnos no tan buenos? iQu6 clase de 
ideas equivocadas teman los que lo hicieron peor y c6mo podrian estar 
relacionadas con un profundo malentendido de lo que se ensehaba? ^Qu6 tipo de 
errores cometieron los alumnos menos aptos? ^En qu6 parte del proceso de 
realizacidn de la tarea tuvieron dificultades los alumnos? Esta continua 
retroalimentacidn sobre como estan realizando una tarea los alumnos proporciona 
una valiosa informacion sobre c6mo podemos ayudar a los alumnos a mejorar. 
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Perfiles de rendimiento 



Si se esXA utilizando resultados de evaluaciones formales para fines diagnosticos, 
6stos deben poseer dos caracteristicas: (1) un perfil, baremo, o conjunto de criterios 
que describe los aspectos constiUiyentes y de procesos del rendimiento y (2) 
razones v^idas o marco tedrico que sostiene la relacidn entre los componentes o 
procesos de la toea y los resultados. Cuando se tienen criterios de la tarea basados 
en principios con una buena base teorica, se puede examiner los perfiles de 
rendimiento del alumno para identificar areas de puntos fuertes y debiles 
relatives — ^para individuos, grupos, la clase entera, la escuela, etcdtera. Por ejemplo, 
el cuadro 7.6 ilustra los puntos fuertes y debiles de la redaccidn de.historia de Mike 
sobre el debate Lincoln-Douglas por medio de la representacidn en grdfica de sus 
calificaciones en seis dimensiones jimto con el rendimiento teorico de un experto 
en historia, proporcionado por una investigacidn previa en CRESST (Baker et al. 
1992). El cuadro 7.6 sugiere que comparado con el experto en historia, Mike 
incluyo pocos conocimientos previos globales y pocos principios histdricos en su 
redaccidn, mostrd una dependencia demasiado fuerte en un texto recientemente 
lefdo, constmyd un argumento relativamente pobre, y utilizd varias ideas 
equivocadas. 

Al utilizar la evaluacidn para fines diagndsticos, se querrd tener en cuenta la 
relacidn entre los sub-baremos de rendimiento y la calidad global del rendimiento. 
Su papel como diagndstico se parece a aquel de un cientifico de la conducta; se estd 
generando suposiciones comprobables sobre causa y efecto. ^Cudl es la diferencia 
entre los perfiles de alumnos que rinden bien y los que no? ^Que dimensiones del 
rendimiento parecen ser las mds importantes si queremos que los alumnos 
mejoren? ^C6mo est4n relacionadas las distintas dimensiones? ^Cudl debe 
ensenarse en primer lugar? Por ejemplo, si los alumnos que siempre argumentan de 
forma excelente tienen perfiles que son igualmente altos en conceptos como “la 
referenda a la informacidn actual”, “la utilizacidn de hechos reales”, y “la 
utilizacidn del humor”, entonces se querrfa consul tar los perfiles de los alumnos 
con m4s dificultades para ver en cudl de estas dimensiones fallaban mds. Si se 
averigua que los que no saben argumentar utilizan el humor y se refieren a hechos 
reales en sus argumentos pero fallan en la utilizacidn de hechos de apoyo, se podria 
empezar a mejorar sus rendimientos trabajando con esta destreza. 

A un nivel centro o distrito, cuando queremos fortalecer la ensenanza, nuestro 
enfoque est4 en el rendimiento de gnipo en lugar de en el individual. Al examinar 
los resultados de gnipo, es necesario observar tanto a los subgrupos como el 
rendimiento de sub-baremos. Los resiimenes a nivel de clase y centro muchas veces 
esconden muchos tipos de conocimientos previos y de experiencias de subgrupos 
identificables, como por ejemplo chicos, chicas, alumnos nuevos en el centro, 
hablantes no naturales de ingl6s, alumnos matriculados en determinados cursos, 
etcetera. Por ejemplo, el cuadro 7.7 ilustra perfiles de rendimiento separado entre 
chicos y chicas en una redaccidn de historia. El rendimiento estd representado en 
seis dimensiones, y se puede ver que las chicas tuvieron calificaciones m4s altas 
que los chicos en todos los puntos del baremo, aimque la diferencia es mayor en 
imas dimensiones que en otras. Si damos por sentado que descartamos las 
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Cuadro 7.6 

Perfiles de calificacion de un experto y de un alumno en ensayos 
de historia 




DIMENSIONES DE LOS ENSAYOS 



E — 


- EXPERTO 


M — 


- MIKE 



IGCC = Impresion general sobre calidad del contenido 
NP = Numero de principios o conceptos 
CP = Conocimientos previos 

A = argumentaci6n 

TEXTO = Proporcion de redaccidn que utiliza detalles 
sacados de textos 
IE = Ideas equivocadas 



Adaptado de Baker et al, 1992 



diferencias de imparcialidad de los calificadores, podria significar estas 
diferencias de subgnipos en la toma de decisiones pedagdgicas? 

Si se desea llegar a todos los alumnos, se querrd saber si algunos subgnipos de 
alumnos tienen perfiles distintos a otros. Por ejemplo, ^los chicos y chicas que 
sacan notas altas en la resolucidn de problemas matemdticos lo consiguen de la 
misma manera? O, entre el grupo de los que redactan de forma insatisfactoria ^los 
alunmos nuevos tienen necesidades diddcticas distintas a los que llevan tres o mas 
anos en el centre? Entre los “que apenas repmeban” y los “que apenas aprueban”, 
^encontramos perfiles de rendimiento parecidos o diferentes? ^Se parecen estos 
gnipos fronterizos en sus calificaciones en gramdtica y utilizacidn del lenguaje? 
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Cuadro 7.7 

Perfiles de rendimiento entre chicos y chicas en ensayos 
de historia 
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Adaptado de Baiker et al, 1 992 



^Hay una dimensidn de rendimiento que separa estos gnipos fronterizos, como por 
ejemplo “organizacidn”, que podrfa dar lugar a enfocar la ensenanza de atencidn 
especial? Lo importante aqui es que cuando se observa a los resultados de grupo, 
no sienipre se obtienen buenas pautas diagndsticas. No s61o hay que saber en qu6 
dreas los alumnos de bajo rendimiento necesitan mas atencidn, sino tambi^n hay 
que saber qui^nes son estos alumnos. 
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A1 igual que la nota media de la clase quizd no revele el hecho de que dos o tres 
alumnos no faeran capaces de llevar a cabo la tarea, los resumenes de grupo pueden 
dar la falsa impresidn de que todos los alumnos estdn rindiendo mds o menos al 
mismo nivel. Una parte de la misidn diagndstica es la de averiguar qu6 almnnos o 
grupos no se reflejan suficientemente bien en el resumen para proporcionar 
resumenes adecuados de sus rendimientos. 



La utilizacidn de sistemas de evaluacidn: Carpetas de trabajo como 
ejempio modelo 

Dadas las limitaciones cuando se utiliza ima sola tarea de evaluacidn o im examen 
para generalizar acerca de im alumno, clase o centro en particular, sugerimos que 
se utilice varias tareas o situaciones para recopilar informacion sobre im aliunno 
antes de tomar decisiones trascendentales. Un enfoque longitudinal a la evaluacidn 
pone en perspective los resultados de cualquier evaluacidn. A su vez, multiples 
mediciones de los mismos resultados proporcionan opiniones altemativas de 
rendimiento que se combinan para crear ima visidn mds complete del logro del 
alrnnno. 

Muchos maestros ban recurrido a la evaluacidn basada en carpetas de trabajo 
como estrategia para la creacidn de im sistema de evaluacidn de clase que incluye 
multiples mediciones efectuadas a lo largo del tiempo. Las carpetas de trabajo 
tienen la ventaja de contener varias muestras de trabajo de im alumno ordenadas 
de manera deliberada. Las carpetas bien concebidas incluyen muestras que 
representan tanto trabajos en curso como muestras “modelo”, reflexiones del 
alrnnno sobre su trabajo y los criterios de la evaluacidn. Arter y Spandel (1992) 
resumen los tipos de preguntas que los maestros debieran hacerse al utilizar 
carpetas de trabajo u otros sistemas de evaluacidn de conjimto: 

1. ^Hasta que pimto es representative el trabajo mcluido en la carpeta con 
respecto a lo que puede realmente hacer el aliunno? 

2. ^Representan las muestras de la carpeta im trabajo dirigido? ^Trabajo 
independiente? ^TYabajo en grupo? ^Se informa sobre la a 5 mda que 
recibieron los alumnos? 

3. ^Los criterios de evaluacidn para cada muestra y para la carpeta en 
conjunto representan las dimensiones mds relevantes o utiles del trabajo 
del alumno? 

4. ^Hasta que pimto corresponden a fines didacticos importantes o a tareas 
autdnticas las muestras de la carpeta? 

5. iRequieren las tareas o partes de ellas habilidades extemas? 

6. ^Existe algun mdtodo para asegurar que las carpetas de trabajo se revisen 
de forma constante y que los criterios se apliquen con precisidn? 
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La utilizacion de examenes: El primer y ultimo paso de la evaluacion 
alternativa 

A lo largo de este capitulo hemos hablado de la utilizacidn de exdmenes como si 
fueran el producto final del ciclo de desarrollo. Sin embargo es evidente que a. 
menos que se considere la utilizacidn de exdmenes antes de la compra o diseno de 
una evaluacidn, es casi imposible conseguir la informacidn que realmente se 
necesita. La evaluacidn, al igual que la ensenanza, requiere la consideracidn 
simult^ea de mucbos temas. 

En este libro bemos planteado los temas conceptuales mds importantes, si no 
todos los tdcnicos, en la evaluacidn alternativa. Nuestra lista es larga pero en 
absolute exbaustiva. El campo de la evaluacion alternativa estd evolucionando con 
tanta velocidad que los cdnones de boy son las advertencias del manana. 

La creacidn y utilizacidn de e valued ones de rendimiento eficaces puede ser 
complicada. Si dste es su primer acercamiento, intente absorber primero las ideas 
mds importantes. Sus evaluaciones probablemente mejorardn y con el tiempo los 
detalles se volverdn mds asequibles mientras uno se acostumbra a los conceptos y 
a la temunologia. Al tratarse de un proceso iterative, se planteardn cuestiones una 
y otra vez, cada vez con mayor experiencia y comprensidn. 

Esperamos que este manual les ayude a abrirse camino entre los matorrales de 
la siempre en aumento informacidn sobre la evaluacidn alternativa para que 
puedan encontrar un sendero abierto bacia una evaluacidn mds diddcticamente 
sensible, fuerte, equitativa, y util. 
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